Amazon Redshift - Guide de démarrage

publicité
Amazon Redshift
Guide de démarrage
Version 01/12/2012
Amazon Redshift Guide de démarrage
Amazon Redshift: Guide de démarrage
Copyright © 2017 Amazon Web Services, Inc. and/or its affiliates. All rights reserved.
Amazon's trademarks and trade dress may not be used in connection with any product or service that is not Amazon's, in any manner
that is likely to cause confusion among customers, or in any manner that disparages or discredits Amazon. All other trademarks not
owned by Amazon are the property of their respective owners, who may or may not be affiliated with, connected to, or sponsored by
Amazon.
Amazon Redshift Guide de démarrage
Table of Contents
Mise en route .................................................................................................................................... 1
Etape 1 : Définir les prérequis ...................................................................................................... 2
Inscrivez-vous à AWS ......................................................................................................... 2
Installez les outils et les pilotes clients SQL ............................................................................ 2
Déterminer les règles de pare-feu ......................................................................................... 3
Etape 2 : Créer un rôle IAM ......................................................................................................... 3
Pour créer un rôle IAM pour Amazon Redshift ...................................................................... 3
Etape 3 : Lancer un cluster .......................................................................................................... 4
Pour lancer un cluster Amazon Redshift ................................................................................ 4
Etape 4 : Autoriser l'accès au cluster ........................................................................................... 11
Pour configurer le groupe de sécurité VPC (plateforme EC2-VPC) ............................................ 11
Pour configurer le groupe de sécurité Amazon Redshift .......................................................... 12
Etape 5 : Se connecter au cluster ............................................................................................... 13
Pour obtenir votre chaîne de connexion ............................................................................... 13
Pour se connecter à partir de SQL Workbench/J à votre cluster ............................................... 14
Etape 6 : Charger des exemples de données ................................................................................ 16
Etape 7 : Rechercher des ressources supplémentaires et réinitialiser votre environnement .................... 20
Comment procéder ensuite ? .............................................................................................. 21
Historique du document ..................................................................................................................... 25
Version 01/12/2012
iii
Amazon Redshift Guide de démarrage
Mise en route avec Amazon Redshift
Bienvenue dans le manuel Amazon Redshift Mise en route. Amazon Redshift est un service d'entreposage
de données dans le cloud entièrement géré et d'une capacité de plusieurs Po. Un entrepôt de données
Amazon Redshift est un ensemble de ressources informatiques appelées nœuds, qui sont organisées en
un groupe appelé cluster. Chaque cluster exécute un moteur Amazon Redshift et contient une ou plusieurs
bases de données.
Si vous utilisez Amazon Redshift pour la première fois, nous vous recommandons de commencer par lire
les sections suivantes :
• Présentation de la gestion Amazon Redshift – fournit une vue d'ensemble de Amazon Redshift.
• Description des tarifs et services – fournit la proposition de valeur Amazon Redshift, les points forts du
service et la tarification.
• Amazon Redshift Mise en route (ce manuel) – fournit un didacticiel de l'utilisation de Amazon Redshift
pour créer un exemple de cluster et utiliser des exemples de données.
Ce manuel est un didacticiel conçu pour vous guider à travers le processus de création d'un exemple de
cluster Amazon Redshift. Vous pouvez utiliser cet exemple de cluster pour évaluer le service Amazon
Redshift. Dans ce didacticiel, vous exécuterez les étapes suivantes :
• Etape 1 : Définir les prérequis (p. 2)
• Etape 2 : Créer un rôle IAM (p. 3)
• Etape 3 : Lancer un exemple de cluster Amazon Redshift (p. 4)
• Etape 4 : Autoriser l'accès au cluster (p. 11)
• Etape 5 : Se connecter à l'exemple de cluster (p. 13)
• Etape 6 : Charger des exemples de données depuis Amazon S3 (p. 16)
• Etape 7 : Rechercher des ressources supplémentaires et réinitialiser votre environnement (p. 20)
Après avoir terminé ce didacticiel, vous pourrez trouver des informations supplémentaires sur Amazon
Redshift et les étapes suivantes dans Comment procéder ensuite ? (p. 21)
Important
L'exemple de cluster que vous créez s'exécutera dans un environnement en direct. Le tarif à
la demande est de 0,25 USD par heure pour l'utilisation de l'exemple de cluster conçu dans
ce didacticiel jusqu'à ce que vous le supprimiez. Pour plus d'informations, consultez la page
Tarification Amazon Redshift. Si vous avez des questions ou que vous êtes bloqué, vous pouvez
contactez l'équipe Amazon Redshift en écrivant dans notre Forum de discussion.
Version 01/12/2012
1
Amazon Redshift Guide de démarrage
Etape 1 : Définir les prérequis
Ce didacticiel n'est pas destiné aux environnements de production et ne traite pas des options en
profondeur. Après avoir terminé les étapes de ce didacticiel, vous pouvez utiliser la section Ressources
supplémentaires (p. 21) pour rechercher des informations plus détaillées pour planifier, déployer et gérer
vos clusters et utiliser les données de votre entrepôt de données.
Etape 1 : Définir les prérequis
Avant de commencer à configurer un cluster Amazon Redshift, vérifiez que vous remplissez les prérequis
suivants dans cette section :
• Inscrivez-vous à AWS (p. 2)
• Installez les outils et les pilotes clients SQL (p. 2)
• Déterminer les règles de pare-feu (p. 3)
Inscrivez-vous à AWS
Si vous ne disposez pas déjà d'un compte AWS, vous devez vous inscrire. Si vous disposez déjà d'un
compte, vous pouvez ignorer ce prérequis et utiliser votre compte existant.
1.
Ouvrez https://aws.amazon.com/, puis choisissez Create an AWS Account.
2.
Suivez les instructions en ligne.
Dans le cadre de la procédure d'inscription, vous recevrez un appel téléphonique et vous saisirez un
code PIN en utilisant le clavier numérique du téléphone.
Installez les outils et les pilotes clients SQL
Vous pouvez utiliser la plupart des outils clients SQL avec des pilotes JDBC ou ODBC Amazon Redshift
pour vous connecter à un cluster Amazon Redshift. Dans ce didacticiel, nous vous expliquons comment
vous connecter à l'aide de SQL Workbench/J, un outil de requête SQL inter-plateforme gratuit, indépendant
de DBMS. Si vous prévoyez d'utiliser SQL Workbench/J pour suivre ce didacticiel, exécutez les étapes cidessous pour préparer à utiliser le pilote JDBC Amazon Redshift et SQL Workbench/J. Pour obtenir des
informations plus complètes sur l'installation de SQL Workbench/J, accédez à Configuration du client SQL
Workbench/J dans le manuel Amazon Redshift Cluster Management Guide. Si vous utilisez une instance
Amazon EC2 en guise d'ordinateur client, vous devez installer SQL Workbench/J et les pilotes nécessaires
sur l'instance.
Note
Vous devez installer tous les outils de base de données tiers que vous souhaitez utiliser avec vos
clusters ; Amazon Redshift ne fournit ni n'installer d'outils ou de bibliothèques tierces.
Pour installer SQL Workbench/J sur votre ordinateur client
1.
2.
Vérifiez la licence logicielle de SQL Workbench/J.
Accédez au site web SQL Workbench/J et téléchargez le package correspondant à votre système
d'exploitation.
3.
Accédez à la page d'installation et de mise en route de SQL Workbench/J et installez SQL Workbench/
J.
Important
Prenez note des prérequis de la version d'exécution Java pour SQL Workbench/J et vérifiez
que vous utilisez cette version, sinon cette application cliente ne fonctionnera pas.
Version 01/12/2012
2
Amazon Redshift Guide de démarrage
Déterminer les règles de pare-feu
4.
Accédez à Configurer une connexion JDBC et téléchargez un pilote JDBC Amazon Redshift pour
activer SQL Workbench/J afin de vous connecter à votre cluster.
Pour plus d'informations sur l'utilisation des pilotes JDBC ou ODBC Amazon Redshift, consultez
Configuration de connexions dans Amazon Redshift.
Déterminer les règles de pare-feu
Dans le cadre de ce didacticiel, vous devez spécifier un port lorsque vous lancez votre cluster Amazon
Redshift. Vous devez également créer une règle de trafic entrant dans un groupe de sécurité afin de
permettre l'accès à votre cluster via le port.
Si votre ordinateur client se trouve derrière un pare-feu, vous devez connaître un port ouvert que vous
pouvez utiliser pour vous connecter au cluster depuis un outil client SQL et exécuter des requêtes. Si vous
ne savez pas, travaillez avec quelqu'un qui comprend vos règles de pare-feu réseau afin de déterminer
un port ouvert dans votre pare-feu. Bien que Amazon Redshift utilise le port 5439 par défaut, la connexion
ne fonctionne pas si ce port n'est pas ouvert dans votre pare-feu. Etant donné que vous ne pouvez pas
modifier le numéro de port de votre cluster Amazon Redshift une fois celui-ci créé, assurez-vous de
spécifier un port ouvert qui fonctionnera dans votre environnement pendant le processus de lancement.
Etape 2 : Créer un rôle IAM
Pour toute opération qui accède aux données sur une autre ressource AWS, par exemple à l'aide d'une
commande COPY afin de charger des données à partir de Amazon S3, votre cluster a besoin d'une
autorisation pour accéder à la ressource et aux données sur la ressource en votre nom. Vous fournissez
ces autorisations à l'aide de AWS Identity and Access Management, soit par un rôle IAM attaché à
votre cluster, soit en fournissant la clé d'accès AWS pour un utilisateur IAM disposant des autorisations
nécessaires.
Pour mieux protéger vos données sensibles et vos informations d'identification d'accès à AWS, nous vous
recommandons de créer un rôle IAM et de l'attacher à votre cluster. Pour plus d'informations sur l'octroi
d'autorisations d'accès, consultez Autorisations d'accès aux autres ressources AWS.
Au cours de cette étape, vous allez créer un nouveau rôle IAM permettant à Amazon Redshift de charger
des données à partir de compartiments Amazon S3. Dans l'étape suivante, vous allez attacher le rôle à
votre cluster.
Pour créer un rôle IAM pour Amazon Redshift
1.
Connectez-vous à la console IAM à l'adresse https://console.aws.amazon.com/iam/.
2.
Dans le volet de navigation de gauche, choisissez Roles.
3.
Choisissez Create New Role
4.
Pour Nom du rôle, indiquez le nom de votre rôle. Dans le cadre de ce didacticiel, entrez
myRedshiftRole. Choisissez Next Step.
5.
Choisissez AWS Service Roles, puis Amazon Redshift.
6.
Sur la page Attach Policy, choisissez la stratégie AmazonS3ReadOnlyAccess, puis Etape suivante.
7.
Passez en revue les informations, puis choisissez Create Role.
8.
Copiez le Role ARN dans votre Presse-papiers ; cette valeur correspond au nom Amazon Resource
Name (ARN) du rôle que vous venez de créer. Vous utiliserez cette valeur lorsque vous utilisez la
commande COPY pour charger des données dans Etape 6 : Charger des exemples de données
depuis Amazon S3 (p. 16).
Version 01/12/2012
3
Amazon Redshift Guide de démarrage
Etape 3 : Lancer un cluster
Etape 3 : Lancer un exemple de cluster Amazon
Redshift
Maintenant que vous avez terminé les prérequis, vous pouvez lancer votre cluster Amazon Redshift.
Important
Le cluster que vous êtes sur le point de lancer sera opérationnel (et non pas exécuté dans un
environnement de test (sandbox)). Des frais d'utilisation sont perçus pour l'utilisation de Amazon
Redshift pour le cluster jusqu'à ce que vous le supprimiez. Si vous terminez le didacticiel décrit ici
en une seule fois et que vous supprimez votre cluster une fois que vous avez terminé, les montant
total des frais sera minimal.
Pour lancer un cluster Amazon Redshift
1.
Connectez-vous à la AWS Management Console et ouvrez la console Amazon Redshift à l'adresse
https://console.aws.amazon.com/redshift/.
Important
Si vous utilisez les informations d'identification utilisateur IAM, vérifiez que l'utilisateur
dispose des autorisations nécessaires pour exécuter les opérations de cluster. Pour plus
d'informations, consultez Contrôle de l'accès aux utilisateurs IAM dans le manuel Amazon
Redshift Cluster Management Guide.
2.
Dans le menu principal, sélectionnez la région dans laquelle vous souhaitez créer le cluster. Dans le
cadre de ce didacticiel, sélectionnez USA Ouest (Oregon).
3.
Sur le tableau de bord Amazon Redshift, choisissez Lancer le cluster.
Le tableau de bord Amazon Redshift ressemble à ce qui suit :
Version 01/12/2012
4
Amazon Redshift Guide de démarrage
Pour lancer un cluster Amazon Redshift
4.
Sur la page Détails du cluster, entrez les valeurs suivantes, puis sélectionnez Continuer :
• Identifiant du cluster : entrez examplecluster.
• Nom de base de données : laissez cette zone vide. Amazon Redshift va créer une base de données
par défaut nommée dev.
• Port de la base de données : entrez le numéro de port sur lequel la base de données acceptera les
connexions. Vous devez avoir déterminé le numéro de port à l'étape des prérequis de ce didacticiel.
Vous ne pouvez pas modifier le port après avoir lancé le cluster, vous devez donc vérifier que vous
disposez d'un numéro de port ouvert dans votre pare-feu afin de vous connecter depuis les outils
clients SQL à la base de données dans le cluster.
• Master User Name : entrez masteruser. Vous allez utiliser ce nom d'utilisateur et ce mot de passe
pour vous connecter à votre base de données, une fois le cluster disponible.
• Mot de passe principal et Confirmer le mot de passe : entrez un mot de passe pour le compte
utilisateur principal.
Version 01/12/2012
5
Amazon Redshift Guide de démarrage
Pour lancer un cluster Amazon Redshift
5.
Sur la page Configuration du nœud, sélectionnez les valeurs suivantes, puis cliquez sur Continuer :
• Type de nœud : dc1.large
• Type de cluster : Single Node
Version 01/12/2012
6
Amazon Redshift Guide de démarrage
Pour lancer un cluster Amazon Redshift
6.
Sur la page Configuration supplémentaire, différentes options s'affichent en fonction de votre compte
AWS, qui détermine le type de plateforme qu'utilise le cluster. Pour simplifier les choses dans le
cadre de ce didacticiel, vous n'avez pas besoin de comprendre la distinction entre les plateformes
EC2-Classic et EC2-VPC. Vous pouvez utiliser les informations contenues dans Ressources
supplémentaires (p. 21) pour rechercher le manuel Amazon Redshift Cluster Management Guide et
en savoir plus après le didacticiel.
EC2-VPC
Si vous disposez d'un VPC par défaut dans la région que vous avez sélectionnée, vous utiliserez la
plateforme EC2-VPC pour lancer votre cluster. L'écran sera similaire à l'exemple suivant :
Version 01/12/2012
7
Amazon Redshift Guide de démarrage
Pour lancer un cluster Amazon Redshift
Utilisez les valeurs suivantes si vous lancez votre cluster dans la plateforme EC2-VPC :
• Groupe de paramètres du cluster : sélectionnez le groupe de paramètres par défaut.
• Chiffrer la base de données : Aucun.
• Choisir un VPC : VPC par défaut (vpc-xxxxxxxx)
• Groupe de sous-réseaux du cluster : par défaut
• Accessible publiquement : Oui
• Choisir une adresse IP publique : Non
• Routage VPC amélioré : Non
• Zone de disponibilité : Aucune préférence
• Groupes de sécurité VPC : par défaut (sg-xxxxxxxx)
• Créer une alarme CloudWatch : Non
EC2-Classic
Si vous ne disposez pas d'un VPC, vous utilisez la plateforme EC2-Classic pour lancer votre cluster.
L'écran sera similaire à l'exemple suivant :
Version 01/12/2012
8
Amazon Redshift Guide de démarrage
Pour lancer un cluster Amazon Redshift
Utilisez les valeurs suivantes si vous lancez votre cluster dans la plateforme EC2-Classic :
• Groupe de paramètres du cluster : sélectionnez le groupe de paramètres par défaut.
• Chiffrer la base de données : Aucun.
• Choisir un VPC : Pas dans le VPC
• Zone de disponibilité : Aucune préférence
• Groupes de sécurité du cluster : par défaut
• Créer une alarme CloudWatch : Non
7.
Associez un rôle IAM au cluster.
Pour AvailableRoles, choisissez myRedshiftRole, puis Continuer.
8.
Sur la page de vérification, passez en revue les sélections que vous avez effectuées, puis Lancer le
cluster.
L'écran sera similaire à l'exemple suivant :
Version 01/12/2012
9
Amazon Redshift Guide de démarrage
Pour lancer un cluster Amazon Redshift
9.
Une page de confirmation s'affiche et le cluster prendra quelques minutes à se finaliser. Choisissez
Fermer pour revenir à la liste des clusters.
10. Sur la page Clusters, choisissez le cluster que vous venez de lancer et vérifiez les informations de
Statut du cluster. Vérifiez que Statut du Cluster est défini sur disponible et que Etat de la base de
données est défini sur sain avant d'essayer de vous connecter à la base de données ultérieurement
dans ce didacticiel.
Version 01/12/2012
10
Amazon Redshift Guide de démarrage
Etape 4 : Autoriser l'accès au cluster
Etape 4 : Autoriser l'accès au cluster
A l'étape précédente, vous avez lancé votre cluster Amazon Redshift. Avant de vous connecter au cluster,
vous devez configurer un groupe de sécurité pour autoriser l'accès :
• Si vous avez lancé votre cluster dans la plateforme EC2-VPC, suivez les étapes décrites dans Pour
configurer le groupe de sécurité VPC (plateforme EC2-VPC) (p. 11).
• Si vous avez lancé votre cluster dans la plateforme EC2-Classic, suivez les étapes décrites dans Pour
configurer le groupe de sécurité Amazon Redshift (p. 12).
Note
Vous devez uniquement configurer l'un de ces deux types de groupes de sécurité. Suivez les
étapes qui correspondent à la plateforme dans laquelle vous avez lancé votre cluster.
Pour configurer le groupe de sécurité VPC (plateforme
EC2-VPC)
1.
Dans la console Amazon Redshift, dans le volet de navigation, choisissez Clusters.
2.
Choisissez examplecluster pour l'ouvrir et vérifiez que vous êtes sur l'onglet Configuration.
3.
Sous Propriétés du cluster, pour Groupes de sécurité VPC, choisissez votre groupe de sécurité.
4.
Une fois que le groupe de sécurité s'affiche dans la console Amazon EC2, sélectionnez l'onglet
Inbound.
5.
Choisissez Modifier et entrez les informations suivantes, puis sélectionnez Enregistrer :
• Type : Règle TCP personnalisée.
• Protocole : TCP.
• Plage de ports : entrez le même numéro de port que celui que vous avez utilisé lors du lancement du
cluster. Le port par défaut pour Amazon Redshift est 5439, mais votre port peut être différent.
• Source : sélectionnez IP personnalisée, puis entrez 0.0.0.0/0.
Important
L'utilisation de l'adresse 0.0.0.0/0 n'est pas recommandée à d'autres fins que celles de
démonstration, car elle permet autorise l'accéder depuis n'importe quel ordinateur sur
Internet. Dans un environnement réel, vous devez créer des règles entrantes en fonction de
vos propres paramètres réseau.
Version 01/12/2012
11
Amazon Redshift Guide de démarrage
Pour configurer le groupe de sécurité Amazon Redshift
Pour configurer le groupe de sécurité Amazon Redshift
1.
Dans la console Amazon Redshift, dans le volet de navigation, choisissez Clusters.
2.
Choisissez examplecluster pour l'ouvrir et vérifiez que vous êtes sur l'onglet Configuration.
3.
Sous Propriétés du cluster, pour Groupes de sécurité du cluster, choisissez par défaut pour ouvrir le
groupe de sécurité par défaut.
4.
Sur l'onglet Groupes de sécurité, dans la liste des groupes de sécurité de cluster, choisissez le groupe
de sécurité du cluster dont vous voulez gérer les règles.
5.
Sur l'onglet Connexions du groupe de sécurité, choisissez Ajouter un type de connexion.
6.
Dans la zone Type de connexion, choisissez Adresse CIDR/IP.
Dans Adresse CIDR/IP à autoriser, entrez 0.0.0.0/0 et choisissez Autoriser.
Important
L'utilisation de l'adresse 0.0.0.0/0 n'est pas recommandée à d'autres fins que celles de
démonstration, car elle permet autorise l'accéder depuis n'importe quel ordinateur sur
Internet. Dans un environnement réel, vous devez créer des règles entrantes en fonction de
vos propres paramètres réseau.
Version 01/12/2012
12
Amazon Redshift Guide de démarrage
Etape 5 : Se connecter au cluster
Etape 5 : Se connecter à l'exemple de cluster
Vous connecter à présent vous connecter votre cluster à l'aide d'un outil client SQL et exécuter une requête
simple pour tester la connexion. Vous pouvez utiliser la plupart des outils clients SQL compatibles avec
PostgreSQL. Dans le cadre de ce didacticiel, vous utiliserez le client SQL Workbench/J que vous avez
installé dans la section des prérequis de ce didacticiel. Terminez cette section en effectuant les étapes
suivantes :
• Pour obtenir votre chaîne de connexion (p. 13)
• Pour se connecter à partir de SQL Workbench/J à votre cluster (p. 14)
Après avoir terminé cette étape, vous pouvez déterminer si vous souhaitez charger des exemples de
données depuis Amazon S3 à l'Etape 6 : Charger des exemples de données depuis Amazon S3 (p. 16)
ou rechercher davantage d'informations sur Amazon Redshift et réinitialiser votre environnement à la
section Comment procéder ensuite ? (p. 21).
Pour obtenir votre chaîne de connexion
1.
Dans la console Amazon Redshift, dans le volet de navigation, choisissez Clusters.
2.
Choisissez examplecluster pour l'ouvrir et vérifiez que vous êtes sur l'onglet Configuration.
3.
Sur l'onglet Configuration, sous Propriétés de la base de données du cluster, copiez l'URL JDBC du
cluster.
Note
Le point de terminaison de votre cluster n'est pas disponible tant que le cluster n'est pas créé
et en état disponible.
Version 01/12/2012
13
Amazon Redshift Guide de démarrage
Pour se connecter à partir de
SQL Workbench/J à votre cluster
Pour se connecter à partir de SQL Workbench/J à
votre cluster
Cette étape suppose que vous ayez installé SQL Workbench/J dans Etape 1 : Définir les
prérequis (p. 2).
1.
Ouvrez SQL Workbench/J.
2.
Choisissez File, puis Connect window.
3.
Choisissez Create a new connection profile.
4.
Dans la zone de texte New profile, entrez un nom pour le profil.
5.
Choisissez Manage Drivers. La boîte de dialogue Manage Drivers s'ouvre.
6.
Cliquez sur le bouton Create a new entry. Dans la zone de texte Name, entrez un nom pour le pilote.
Sélectionnez l'icône du dossier en regard de la zone Library, accédez à l'emplacement du pilote,
sélectionnez-le et cliquez sur Open.
Version 01/12/2012
14
Amazon Redshift Guide de démarrage
Pour se connecter à partir de
SQL Workbench/J à votre cluster
Si la boîte de dialogue Please select one driver s'affiche, sélectionnez
com.amazon.redshift.jdbc4.Driver ou com.amazon.redshift.jdbc41.Driver et choisissez OK. SQL
Workbench/J renseigne automatiquement la zone Classname. Laissez la zone Sample URL vide, puis
choisissez OK.
7.
Dans la zone Driver, choisissez le pilote que vous venez d'ajouter.
8.
Dans URL, copiez l'URL JDBC dans la Amazon Redshift console et collez-la ici.
9.
Dans Username, entrez masteruser.
10. Dans Password, entrez le mot de passe associé au compte utilisateur principal.
11. Activez la case à cocher Autocommit.
12. Cliquez sur l'icône Save profile list, comme indiqué ci-dessous :
13. Choisissez OK.
Version 01/12/2012
15
Amazon Redshift Guide de démarrage
Etape 6 : Charger des exemples de données
Etape 6 : Charger des exemples de données depuis
Amazon S3
A ce stade, vous disposez d'une base de données appelée dev à laquelle vous êtes connecté. A présent,
vous allez créer des tables dans la base de données, charger des données dans les tables et essayez
d'exécuter une requête. Pour plus de commodité, les exemples de données que vous allez charger sont
disponibles dans un compartiment Amazon S3.
Note
Avant de commencer, assurez-vous que votre client SQL Workbench/J est connecté au cluster.
Une fois cette étape terminée, vous pouvez trouver davantage d'informations sur Amazon Redshift et
réinitialiser votre environnement à la section Comment procéder ensuite ? (p. 21).
1.
Créez des tables.
Copiez et exécutez les instructions de table de création suivantes afin de créer des tables de la base
de données dev. Pour plus d'informations sur la syntaxe, consultez CREATE TABLE dans le manuel
Amazon Redshift Database Developer Guide.
create table users(
userid integer not null distkey sortkey,
username char(8),
firstname varchar(30),
lastname varchar(30),
city varchar(30),
state char(2),
email varchar(100),
phone char(14),
likesports boolean,
liketheatre boolean,
likeconcerts boolean,
likejazz boolean,
likeclassical boolean,
likeopera boolean,
likerock boolean,
Version 01/12/2012
16
Amazon Redshift Guide de démarrage
Etape 6 : Charger des exemples de données
likevegas boolean,
likebroadway boolean,
likemusicals boolean);
create table venue(
venueid smallint not null distkey sortkey,
venuename varchar(100),
venuecity varchar(30),
venuestate char(2),
venueseats integer);
create table category(
catid smallint not null distkey sortkey,
catgroup varchar(10),
catname varchar(10),
catdesc varchar(50));
create table date(
dateid smallint not null distkey sortkey,
caldate date not null,
day character(3) not null,
week smallint not null,
month character(5) not null,
qtr character(5) not null,
year smallint not null,
holiday boolean default('N'));
create table event(
eventid integer not null distkey,
venueid smallint not null,
catid smallint not null,
dateid smallint not null sortkey,
eventname varchar(200),
starttime timestamp);
create table listing(
listid integer not null distkey,
sellerid integer not null,
eventid integer not null,
dateid smallint not null sortkey,
numtickets smallint not null,
priceperticket decimal(8,2),
totalprice decimal(8,2),
listtime timestamp);
create table sales(
salesid integer not null,
listid integer not null distkey,
sellerid integer not null,
buyerid integer not null,
eventid integer not null,
dateid smallint not null sortkey,
qtysold smallint not null,
pricepaid decimal(8,2),
commission decimal(8,2),
saletime timestamp);
2.
Chargez des exemples de données depuis Amazon S3 à l'aide de la commande COPY.
Note
Nous vous recommandons d'utiliser la commande COPY pour charger des ensembles de
données volumineux dans Amazon Redshift depuis Amazon S3 ou DynamoDB. Pour plus
d'informations sur la syntaxe de la commande COPY, consultez COPY dans le manuel
Amazon Redshift Database Developer Guide.
Version 01/12/2012
17
Amazon Redshift Guide de démarrage
Etape 6 : Charger des exemples de données
Les exemples de données fournies dans ce didacticiel se trouvent dans un compartiment Amazon S3
appartenant à Amazon Redshift. Les autorisations de compartiment sont configurées afin d'accorder à
tous les utilisateurs AWS authentifiés un accès en lecture aux fichiers d'exemples de données.
Pour charger les exemples de données, vous devez fournir l'authentification de votre cluster afin qu'il
accède à Amazon S3 en votre nom. Vous pouvez fournir une authentification basée sur les rôles ou
une authentification basée sur des clés. Nous vous recommandons d'utiliser l'authentification basée
sur les rôles. Pour plus d'informations sur les deux types d'authentification, consultez CREDENTIALS
dans le manuel Amazon Redshift Database Developer Guide.
Pour cette étape, vous devez fournir l'authentification en faisant référence au rôle IAM que vous avez
créé, puis attaché à votre cluster au cours des étapes précédentes.
Note
Si vous ne disposez pas des autorisations appropriées pour accéder à Amazon S3,
vous recevez le message d'erreur suivant lorsque vous exécutez la commande COPY :
S3ServiceException: Access Denied.
Les commandes COPY incluent un espace réservé pour l'ARN du rôle IAM, comme illustré dans
l'exemple suivant.
copy users from 's3://awssampledbuswest2/tickit/allusers_pipe.txt'
credentials 'aws_iam_role=<iam-role-arn>'
delimiter '|' region 'us-west-2';
Pour autoriser l'accès à l'aide d'un rôle IAM, remplacez <iam-role-arn> dans la chaîne de paramètre
CREDENTIALS par l'ARN du rôle IAM vous avez créé dans Etape 2 : Créer un rôle IAM (p. 3).
Votre commande COPY sera similaire à l'exemple suivant.
copy users from 's3://awssampledbuswest2/tickit/allusers_pipe.txt'
credentials 'aws_iam_role=arn:aws:iam::123456789012:role/myRedshiftRole'
delimiter '|' region 'us-west-2';
Pour charger les exemples de données, remplacez <iam-role-arn> dans les commandes COPY
suivantes avec l'ARN de votre rôle. Puis, exécutez les commandes dans votre outil client SQL.
copy users from 's3://awssampledbuswest2/tickit/allusers_pipe.txt'
credentials 'aws_iam_role=<iam-role-arn>'
delimiter '|' region 'us-west-2';
copy venue from 's3://awssampledbuswest2/tickit/venue_pipe.txt'
credentials 'aws_iam_role=<iam-role-arn>'
delimiter '|' region 'us-west-2';
copy category from 's3://awssampledbuswest2/tickit/category_pipe.txt'
credentials 'aws_iam_role=<iam-role-arn>'
delimiter '|' region 'us-west-2';
copy date from 's3://awssampledbuswest2/tickit/date2008_pipe.txt'
credentials 'aws_iam_role=<iam-role-arn>'
delimiter '|' region 'us-west-2';
copy event from 's3://awssampledbuswest2/tickit/allevents_pipe.txt'
credentials 'aws_iam_role=<iam-role-arn>'
delimiter '|' timeformat 'YYYY-MM-DD HH:MI:SS' region 'us-west-2';
copy listing from 's3://awssampledbuswest2/tickit/listings_pipe.txt'
Version 01/12/2012
18
Amazon Redshift Guide de démarrage
Etape 6 : Charger des exemples de données
credentials 'aws_iam_role=<iam-role-arn>'
delimiter '|' region 'us-west-2';
copy sales from 's3://awssampledbuswest2/tickit/sales_tab.txt'
credentials 'aws_iam_role=<iam-role-arn>'
delimiter '\t' timeformat 'MM/DD/YYYY HH:MI:SS' region 'us-west-2';
3.
A présent, essayez les exemples de requêtes. Pour plus d'informations, consultez SELECT dans le
Guide du développeur Amazon Redshift.
-- Get definition for the sales table.
SELECT *
FROM pg_table_def
WHERE tablename = 'sales';
-- Find total sales on a given calendar date.
SELECT sum(qtysold)
FROM
sales, date
WHERE sales.dateid = date.dateid
AND
caldate = '2008-01-05';
-- Find top 10 buyers by quantity.
SELECT firstname, lastname, total_quantity
FROM
(SELECT buyerid, sum(qtysold) total_quantity
FROM sales
GROUP BY buyerid
ORDER BY total_quantity desc limit 10) Q, users
WHERE Q.buyerid = userid
ORDER BY Q.total_quantity desc;
-- Find events in the 99.9 percentile in terms of all time gross sales.
SELECT eventname, total_price
FROM (SELECT eventid, total_price, ntile(1000) over(order by total_price desc) as
percentile
FROM (SELECT eventid, sum(pricepaid) total_price
FROM
sales
GROUP BY eventid)) Q, event E
WHERE Q.eventid = E.eventid
AND percentile = 1
ORDER BY total_price desc;
4.
Le cas échéant, vous pouvez accéder à la console Amazon Redshift pour vérifier les requêtes que
vous avez exécutées. L'onglet Requêtes affiche une liste des requêtes que vous avez exécutées sur
une période que vous spécifiez. Par défaut, la console affiche les requêtes qui ont été exécutées au
cours des dernières 24 heures, y compris les requêtes en cours d'exécution.
• Connectez-vous à la AWS Management Console et ouvrez la console Amazon Redshift à l'adresse
https://console.aws.amazon.com/redshift/.
• Dans la liste des clusters affichée dans le volet droit, sélectionnez examplecluster.
• Choisissez l'onglet Requêtes.
La console affiche la liste des requêtes que vous avez exécutées comme illustré dans l'exemple cidessous.
Version 01/12/2012
19
Amazon Redshift Guide de démarrage
Etape 7 : Rechercher des ressources
supplémentaires et réinitialiser votre environnement
• Pour plus d'informations sur une requête, cliquez sur le lien de l'ID de requête dans la colonne
Requête ou choisissez l'icône de loupe.
L'exemple suivant affiche les détails d'une requête que vous avez exécutée au cours d'une étape
précédente.
Etape 7 : Rechercher des ressources
supplémentaires et réinitialiser votre environnement
Lorsque vous aurez terminé ce didacticiel, vous pourrez accéder à d'autres ressources Amazon Redshift
vous permettant d'en savoir plus sur les concepts présentés dans ce manuel, ou bien vous pourrez
réinitialiser votre environnement à l'état précédent. Vous souhaiterez peut-être conserver l'exemple
de cluster en cours d'exécution si vous avez l'intention de tester des tâches d'autres manuels Amazon
Redshift. Toutefois, n'oubliez pas que vous continuerez d'être facturé pour votre cluster tant que celui-ci
sera en cours d'exécution. Vous devez annuler l'accès au cluster et le supprimer si vous n'en avez plus
besoin afin de ne plus être facturé.
Version 01/12/2012
20
Amazon Redshift Guide de démarrage
Comment procéder ensuite ?
Comment procéder ensuite ?
Ressources supplémentaires
Nous vous recommandons de continuer pour en savoir plus sur les concepts présentés dans ce manuel
grâce aux ressources suivantes :
• Présentation de la gestion Amazon Redshift : Cette rubrique fournit une présentation de Amazon
Redshift.
• Amazon Redshift Cluster Management Guide : ce manuel repose sur ce manuel Amazon Redshift Mise
en route et fournit des informations détaillées sur les concepts et les tâches de création, de gestion et de
surveillance des clusters.
• Amazon Redshift Database Developer Guide : ce manuel repose sur ce manuel Amazon Redshift Mise
en route en fournissant aux développeurs de bases de données des informations sur la conception, le
développement, l'interrogation et la maintenance des bases de données qui constituent votre entrepôt de
données.
Réinitialisation de votre environnement
Lorsque vous aurez terminé ce didacticiel, vous devrez réinitialiser votre environnement à l'état précédent
en procédant comme suit :
• Révoquer l'accès au port et l'Adresse CIDR/IP à laquelle vous avez autorisé l'accès :
Si vous avez utilisé la plateforme EC2-VPC pour lancer votre cluster, effectuez les étapes décrites dans
la section Pour révoquer l'accès depuis le groupe de sécurité VPC (p. 21).
Si vous avez utilisé la plateforme EC2-Classic pour lancer votre cluster, effectuez les étapes décrites
dans la section Pour révoquer l'accès depuis le groupe de sécurité du cluster (p. 22).
• Supprimez votre exemple de cluster. Vous continuez à payer des frais pour le service Amazon Redshift
tant que vous n'aurez pas supprimé le cluster. Effectuez les étapes décrites dans la section Pour
supprimer l'exemple de cluster (p. 23).
Pour révoquer l'accès depuis le groupe de sécurité VPC
1.
Dans la console Amazon Redshift, dans le volet de navigation, choisissez Clusters.
2.
Choisissez examplecluster pour l'ouvrir, et vérifiez que vous êtes sur l'onglet Configuration.
3.
Sous Propriétés du cluster, sélectionnez le groupe de sécurité vpc.
4.
Une fois le groupe de sécurité par défaut sélectionné, choisissez l'onglet Inbound, puis Modifier.
Version 01/12/2012
21
Amazon Redshift Guide de démarrage
Comment procéder ensuite ?
5.
Supprimez la règle de trafic entrant TCP/IP personnalisée que vous avez créée pour votre port et
l'adresse CIDR/IP 0.0.0.0/0. Ne supprimez pas d'autre règle, telle que la règle Tout le trafic qui a été
créée pour le groupe de sécurité par défaut. Choisissez Save.
Pour révoquer l'accès depuis le groupe de sécurité du cluster
1.
Dans la console Amazon Redshift, dans le volet de navigation, choisissez Clusters.
2.
Choisissez examplecluster pour l'ouvrir, et vérifiez que vous êtes sur l'onglet Configuration.
3.
Sous Propriétés du cluster, pour Groupes de sécurité du cluster, choisissez par défaut pour ouvrir le
groupe de sécurité par défaut.
4.
Sur l'onglet Groupes de sécurité, dans la liste des groupes de sécurité du cluster, sélectionnez le
groupe de sécurité du cluster par défaut.
5.
Sur l'onglet Connexions du groupe de sécurité, sélectionnez la règle de trafic entrant d'adresse CIDR/
IP personnalisée que vous avez créée pour l'adresse CIDR/IP 0.0.0.0/0 et choisissez Révoquer.
Version 01/12/2012
22
Amazon Redshift Guide de démarrage
Comment procéder ensuite ?
Pour supprimer l'exemple de cluster
1.
Dans la console Amazon Redshift, dans le volet de navigation, choisissez Clusters.
2.
Choisissez examplecluster pour l'ouvrir, et vérifiez que vous êtes sur l'onglet Configuration.
3.
Dans le menu Cluster, choisissez Delete.
4.
Dans la fenêtre Delete Cluster, pour Create snapshot, choisissez No, puis Delete.
5.
Dans la fenêtre de détails du cluster, le Statut du cluster affiche le cluster en cours de suppression.
Version 01/12/2012
23
Amazon Redshift Guide de démarrage
Comment procéder ensuite ?
Version 01/12/2012
24
Amazon Redshift Guide de démarrage
Historique du document
Le tableau suivant décrit les modifications significatives apportées à ce document depuis la publication du
dernier Guide de démarrage de Amazon Redshift.
Dernière mise à jour de la documentation : 28 juillet 2015
Modification
Description
Date de parution
Nouvelle fonction
Mise à jour du guide pour lancer les clusters depuis le
tableau de bord Amazon Redshift.
28 juillet 2015
Nouvelle fonction
Mise à jour du guide pour utiliser de nouveaux noms de
types de nœud.
9 juin 2015
Mise à jour de la
documentation
Mise à jour des captures d'écran et de la procédure de
configuration des groupes de sécurité VPC.
30 avril 2015
Mise à jour de la
documentation
Mise à jour des captures d'écran et des procédures pour
correspondre à la console actuelle.
12 novembre 2014
Mise à jour de la
documentation
Déplacement des données de chargement depuis les
informations Amazon S3 dans leur propre section et
déplacement de la section des étapes suivantes dans
l'étape finale pour plus de clarté.
13 mai 2014
Mise à jour de la
documentation
Suppression de la page d'accueil et intégration du contenu
dans la page de mise en route principale.
14 mars 2014
Mise à jour de la
documentation
Ce document est une nouvelle version du Guide de
démarrage Amazon Redshift qui traite des commentaires
des clients et des mises à jour du service.
14 mars 2014
Nouveau Guide
Il s'agit de la première version du Guide de démarrage
Amazon Redshift.
14 février 2013
Version 01/12/2012
25
Téléchargement