Amazon Redshift Guide de démarrage Version 01/12/2012 Amazon Redshift Guide de démarrage Amazon Redshift: Guide de démarrage Copyright © 2017 Amazon Web Services, Inc. and/or its affiliates. All rights reserved. Amazon's trademarks and trade dress may not be used in connection with any product or service that is not Amazon's, in any manner that is likely to cause confusion among customers, or in any manner that disparages or discredits Amazon. All other trademarks not owned by Amazon are the property of their respective owners, who may or may not be affiliated with, connected to, or sponsored by Amazon. Amazon Redshift Guide de démarrage Table of Contents Mise en route .................................................................................................................................... 1 Etape 1 : Définir les prérequis ...................................................................................................... 2 Inscrivez-vous à AWS ......................................................................................................... 2 Installez les outils et les pilotes clients SQL ............................................................................ 2 Déterminer les règles de pare-feu ......................................................................................... 3 Etape 2 : Créer un rôle IAM ......................................................................................................... 3 Pour créer un rôle IAM pour Amazon Redshift ...................................................................... 3 Etape 3 : Lancer un cluster .......................................................................................................... 4 Pour lancer un cluster Amazon Redshift ................................................................................ 4 Etape 4 : Autoriser l'accès au cluster ........................................................................................... 11 Pour configurer le groupe de sécurité VPC (plateforme EC2-VPC) ............................................ 11 Pour configurer le groupe de sécurité Amazon Redshift .......................................................... 12 Etape 5 : Se connecter au cluster ............................................................................................... 13 Pour obtenir votre chaîne de connexion ............................................................................... 13 Pour se connecter à partir de SQL Workbench/J à votre cluster ............................................... 14 Etape 6 : Charger des exemples de données ................................................................................ 16 Etape 7 : Rechercher des ressources supplémentaires et réinitialiser votre environnement .................... 20 Comment procéder ensuite ? .............................................................................................. 21 Historique du document ..................................................................................................................... 25 Version 01/12/2012 iii Amazon Redshift Guide de démarrage Mise en route avec Amazon Redshift Bienvenue dans le manuel Amazon Redshift Mise en route. Amazon Redshift est un service d'entreposage de données dans le cloud entièrement géré et d'une capacité de plusieurs Po. Un entrepôt de données Amazon Redshift est un ensemble de ressources informatiques appelées nœuds, qui sont organisées en un groupe appelé cluster. Chaque cluster exécute un moteur Amazon Redshift et contient une ou plusieurs bases de données. Si vous utilisez Amazon Redshift pour la première fois, nous vous recommandons de commencer par lire les sections suivantes : • Présentation de la gestion Amazon Redshift – fournit une vue d'ensemble de Amazon Redshift. • Description des tarifs et services – fournit la proposition de valeur Amazon Redshift, les points forts du service et la tarification. • Amazon Redshift Mise en route (ce manuel) – fournit un didacticiel de l'utilisation de Amazon Redshift pour créer un exemple de cluster et utiliser des exemples de données. Ce manuel est un didacticiel conçu pour vous guider à travers le processus de création d'un exemple de cluster Amazon Redshift. Vous pouvez utiliser cet exemple de cluster pour évaluer le service Amazon Redshift. Dans ce didacticiel, vous exécuterez les étapes suivantes : • Etape 1 : Définir les prérequis (p. 2) • Etape 2 : Créer un rôle IAM (p. 3) • Etape 3 : Lancer un exemple de cluster Amazon Redshift (p. 4) • Etape 4 : Autoriser l'accès au cluster (p. 11) • Etape 5 : Se connecter à l'exemple de cluster (p. 13) • Etape 6 : Charger des exemples de données depuis Amazon S3 (p. 16) • Etape 7 : Rechercher des ressources supplémentaires et réinitialiser votre environnement (p. 20) Après avoir terminé ce didacticiel, vous pourrez trouver des informations supplémentaires sur Amazon Redshift et les étapes suivantes dans Comment procéder ensuite ? (p. 21) Important L'exemple de cluster que vous créez s'exécutera dans un environnement en direct. Le tarif à la demande est de 0,25 USD par heure pour l'utilisation de l'exemple de cluster conçu dans ce didacticiel jusqu'à ce que vous le supprimiez. Pour plus d'informations, consultez la page Tarification Amazon Redshift. Si vous avez des questions ou que vous êtes bloqué, vous pouvez contactez l'équipe Amazon Redshift en écrivant dans notre Forum de discussion. Version 01/12/2012 1 Amazon Redshift Guide de démarrage Etape 1 : Définir les prérequis Ce didacticiel n'est pas destiné aux environnements de production et ne traite pas des options en profondeur. Après avoir terminé les étapes de ce didacticiel, vous pouvez utiliser la section Ressources supplémentaires (p. 21) pour rechercher des informations plus détaillées pour planifier, déployer et gérer vos clusters et utiliser les données de votre entrepôt de données. Etape 1 : Définir les prérequis Avant de commencer à configurer un cluster Amazon Redshift, vérifiez que vous remplissez les prérequis suivants dans cette section : • Inscrivez-vous à AWS (p. 2) • Installez les outils et les pilotes clients SQL (p. 2) • Déterminer les règles de pare-feu (p. 3) Inscrivez-vous à AWS Si vous ne disposez pas déjà d'un compte AWS, vous devez vous inscrire. Si vous disposez déjà d'un compte, vous pouvez ignorer ce prérequis et utiliser votre compte existant. 1. Ouvrez https://aws.amazon.com/, puis choisissez Create an AWS Account. 2. Suivez les instructions en ligne. Dans le cadre de la procédure d'inscription, vous recevrez un appel téléphonique et vous saisirez un code PIN en utilisant le clavier numérique du téléphone. Installez les outils et les pilotes clients SQL Vous pouvez utiliser la plupart des outils clients SQL avec des pilotes JDBC ou ODBC Amazon Redshift pour vous connecter à un cluster Amazon Redshift. Dans ce didacticiel, nous vous expliquons comment vous connecter à l'aide de SQL Workbench/J, un outil de requête SQL inter-plateforme gratuit, indépendant de DBMS. Si vous prévoyez d'utiliser SQL Workbench/J pour suivre ce didacticiel, exécutez les étapes cidessous pour préparer à utiliser le pilote JDBC Amazon Redshift et SQL Workbench/J. Pour obtenir des informations plus complètes sur l'installation de SQL Workbench/J, accédez à Configuration du client SQL Workbench/J dans le manuel Amazon Redshift Cluster Management Guide. Si vous utilisez une instance Amazon EC2 en guise d'ordinateur client, vous devez installer SQL Workbench/J et les pilotes nécessaires sur l'instance. Note Vous devez installer tous les outils de base de données tiers que vous souhaitez utiliser avec vos clusters ; Amazon Redshift ne fournit ni n'installer d'outils ou de bibliothèques tierces. Pour installer SQL Workbench/J sur votre ordinateur client 1. 2. Vérifiez la licence logicielle de SQL Workbench/J. Accédez au site web SQL Workbench/J et téléchargez le package correspondant à votre système d'exploitation. 3. Accédez à la page d'installation et de mise en route de SQL Workbench/J et installez SQL Workbench/ J. Important Prenez note des prérequis de la version d'exécution Java pour SQL Workbench/J et vérifiez que vous utilisez cette version, sinon cette application cliente ne fonctionnera pas. Version 01/12/2012 2 Amazon Redshift Guide de démarrage Déterminer les règles de pare-feu 4. Accédez à Configurer une connexion JDBC et téléchargez un pilote JDBC Amazon Redshift pour activer SQL Workbench/J afin de vous connecter à votre cluster. Pour plus d'informations sur l'utilisation des pilotes JDBC ou ODBC Amazon Redshift, consultez Configuration de connexions dans Amazon Redshift. Déterminer les règles de pare-feu Dans le cadre de ce didacticiel, vous devez spécifier un port lorsque vous lancez votre cluster Amazon Redshift. Vous devez également créer une règle de trafic entrant dans un groupe de sécurité afin de permettre l'accès à votre cluster via le port. Si votre ordinateur client se trouve derrière un pare-feu, vous devez connaître un port ouvert que vous pouvez utiliser pour vous connecter au cluster depuis un outil client SQL et exécuter des requêtes. Si vous ne savez pas, travaillez avec quelqu'un qui comprend vos règles de pare-feu réseau afin de déterminer un port ouvert dans votre pare-feu. Bien que Amazon Redshift utilise le port 5439 par défaut, la connexion ne fonctionne pas si ce port n'est pas ouvert dans votre pare-feu. Etant donné que vous ne pouvez pas modifier le numéro de port de votre cluster Amazon Redshift une fois celui-ci créé, assurez-vous de spécifier un port ouvert qui fonctionnera dans votre environnement pendant le processus de lancement. Etape 2 : Créer un rôle IAM Pour toute opération qui accède aux données sur une autre ressource AWS, par exemple à l'aide d'une commande COPY afin de charger des données à partir de Amazon S3, votre cluster a besoin d'une autorisation pour accéder à la ressource et aux données sur la ressource en votre nom. Vous fournissez ces autorisations à l'aide de AWS Identity and Access Management, soit par un rôle IAM attaché à votre cluster, soit en fournissant la clé d'accès AWS pour un utilisateur IAM disposant des autorisations nécessaires. Pour mieux protéger vos données sensibles et vos informations d'identification d'accès à AWS, nous vous recommandons de créer un rôle IAM et de l'attacher à votre cluster. Pour plus d'informations sur l'octroi d'autorisations d'accès, consultez Autorisations d'accès aux autres ressources AWS. Au cours de cette étape, vous allez créer un nouveau rôle IAM permettant à Amazon Redshift de charger des données à partir de compartiments Amazon S3. Dans l'étape suivante, vous allez attacher le rôle à votre cluster. Pour créer un rôle IAM pour Amazon Redshift 1. Connectez-vous à la console IAM à l'adresse https://console.aws.amazon.com/iam/. 2. Dans le volet de navigation de gauche, choisissez Roles. 3. Choisissez Create New Role 4. Pour Nom du rôle, indiquez le nom de votre rôle. Dans le cadre de ce didacticiel, entrez myRedshiftRole. Choisissez Next Step. 5. Choisissez AWS Service Roles, puis Amazon Redshift. 6. Sur la page Attach Policy, choisissez la stratégie AmazonS3ReadOnlyAccess, puis Etape suivante. 7. Passez en revue les informations, puis choisissez Create Role. 8. Copiez le Role ARN dans votre Presse-papiers ; cette valeur correspond au nom Amazon Resource Name (ARN) du rôle que vous venez de créer. Vous utiliserez cette valeur lorsque vous utilisez la commande COPY pour charger des données dans Etape 6 : Charger des exemples de données depuis Amazon S3 (p. 16). Version 01/12/2012 3 Amazon Redshift Guide de démarrage Etape 3 : Lancer un cluster Etape 3 : Lancer un exemple de cluster Amazon Redshift Maintenant que vous avez terminé les prérequis, vous pouvez lancer votre cluster Amazon Redshift. Important Le cluster que vous êtes sur le point de lancer sera opérationnel (et non pas exécuté dans un environnement de test (sandbox)). Des frais d'utilisation sont perçus pour l'utilisation de Amazon Redshift pour le cluster jusqu'à ce que vous le supprimiez. Si vous terminez le didacticiel décrit ici en une seule fois et que vous supprimez votre cluster une fois que vous avez terminé, les montant total des frais sera minimal. Pour lancer un cluster Amazon Redshift 1. Connectez-vous à la AWS Management Console et ouvrez la console Amazon Redshift à l'adresse https://console.aws.amazon.com/redshift/. Important Si vous utilisez les informations d'identification utilisateur IAM, vérifiez que l'utilisateur dispose des autorisations nécessaires pour exécuter les opérations de cluster. Pour plus d'informations, consultez Contrôle de l'accès aux utilisateurs IAM dans le manuel Amazon Redshift Cluster Management Guide. 2. Dans le menu principal, sélectionnez la région dans laquelle vous souhaitez créer le cluster. Dans le cadre de ce didacticiel, sélectionnez USA Ouest (Oregon). 3. Sur le tableau de bord Amazon Redshift, choisissez Lancer le cluster. Le tableau de bord Amazon Redshift ressemble à ce qui suit : Version 01/12/2012 4 Amazon Redshift Guide de démarrage Pour lancer un cluster Amazon Redshift 4. Sur la page Détails du cluster, entrez les valeurs suivantes, puis sélectionnez Continuer : • Identifiant du cluster : entrez examplecluster. • Nom de base de données : laissez cette zone vide. Amazon Redshift va créer une base de données par défaut nommée dev. • Port de la base de données : entrez le numéro de port sur lequel la base de données acceptera les connexions. Vous devez avoir déterminé le numéro de port à l'étape des prérequis de ce didacticiel. Vous ne pouvez pas modifier le port après avoir lancé le cluster, vous devez donc vérifier que vous disposez d'un numéro de port ouvert dans votre pare-feu afin de vous connecter depuis les outils clients SQL à la base de données dans le cluster. • Master User Name : entrez masteruser. Vous allez utiliser ce nom d'utilisateur et ce mot de passe pour vous connecter à votre base de données, une fois le cluster disponible. • Mot de passe principal et Confirmer le mot de passe : entrez un mot de passe pour le compte utilisateur principal. Version 01/12/2012 5 Amazon Redshift Guide de démarrage Pour lancer un cluster Amazon Redshift 5. Sur la page Configuration du nœud, sélectionnez les valeurs suivantes, puis cliquez sur Continuer : • Type de nœud : dc1.large • Type de cluster : Single Node Version 01/12/2012 6 Amazon Redshift Guide de démarrage Pour lancer un cluster Amazon Redshift 6. Sur la page Configuration supplémentaire, différentes options s'affichent en fonction de votre compte AWS, qui détermine le type de plateforme qu'utilise le cluster. Pour simplifier les choses dans le cadre de ce didacticiel, vous n'avez pas besoin de comprendre la distinction entre les plateformes EC2-Classic et EC2-VPC. Vous pouvez utiliser les informations contenues dans Ressources supplémentaires (p. 21) pour rechercher le manuel Amazon Redshift Cluster Management Guide et en savoir plus après le didacticiel. EC2-VPC Si vous disposez d'un VPC par défaut dans la région que vous avez sélectionnée, vous utiliserez la plateforme EC2-VPC pour lancer votre cluster. L'écran sera similaire à l'exemple suivant : Version 01/12/2012 7 Amazon Redshift Guide de démarrage Pour lancer un cluster Amazon Redshift Utilisez les valeurs suivantes si vous lancez votre cluster dans la plateforme EC2-VPC : • Groupe de paramètres du cluster : sélectionnez le groupe de paramètres par défaut. • Chiffrer la base de données : Aucun. • Choisir un VPC : VPC par défaut (vpc-xxxxxxxx) • Groupe de sous-réseaux du cluster : par défaut • Accessible publiquement : Oui • Choisir une adresse IP publique : Non • Routage VPC amélioré : Non • Zone de disponibilité : Aucune préférence • Groupes de sécurité VPC : par défaut (sg-xxxxxxxx) • Créer une alarme CloudWatch : Non EC2-Classic Si vous ne disposez pas d'un VPC, vous utilisez la plateforme EC2-Classic pour lancer votre cluster. L'écran sera similaire à l'exemple suivant : Version 01/12/2012 8 Amazon Redshift Guide de démarrage Pour lancer un cluster Amazon Redshift Utilisez les valeurs suivantes si vous lancez votre cluster dans la plateforme EC2-Classic : • Groupe de paramètres du cluster : sélectionnez le groupe de paramètres par défaut. • Chiffrer la base de données : Aucun. • Choisir un VPC : Pas dans le VPC • Zone de disponibilité : Aucune préférence • Groupes de sécurité du cluster : par défaut • Créer une alarme CloudWatch : Non 7. Associez un rôle IAM au cluster. Pour AvailableRoles, choisissez myRedshiftRole, puis Continuer. 8. Sur la page de vérification, passez en revue les sélections que vous avez effectuées, puis Lancer le cluster. L'écran sera similaire à l'exemple suivant : Version 01/12/2012 9 Amazon Redshift Guide de démarrage Pour lancer un cluster Amazon Redshift 9. Une page de confirmation s'affiche et le cluster prendra quelques minutes à se finaliser. Choisissez Fermer pour revenir à la liste des clusters. 10. Sur la page Clusters, choisissez le cluster que vous venez de lancer et vérifiez les informations de Statut du cluster. Vérifiez que Statut du Cluster est défini sur disponible et que Etat de la base de données est défini sur sain avant d'essayer de vous connecter à la base de données ultérieurement dans ce didacticiel. Version 01/12/2012 10 Amazon Redshift Guide de démarrage Etape 4 : Autoriser l'accès au cluster Etape 4 : Autoriser l'accès au cluster A l'étape précédente, vous avez lancé votre cluster Amazon Redshift. Avant de vous connecter au cluster, vous devez configurer un groupe de sécurité pour autoriser l'accès : • Si vous avez lancé votre cluster dans la plateforme EC2-VPC, suivez les étapes décrites dans Pour configurer le groupe de sécurité VPC (plateforme EC2-VPC) (p. 11). • Si vous avez lancé votre cluster dans la plateforme EC2-Classic, suivez les étapes décrites dans Pour configurer le groupe de sécurité Amazon Redshift (p. 12). Note Vous devez uniquement configurer l'un de ces deux types de groupes de sécurité. Suivez les étapes qui correspondent à la plateforme dans laquelle vous avez lancé votre cluster. Pour configurer le groupe de sécurité VPC (plateforme EC2-VPC) 1. Dans la console Amazon Redshift, dans le volet de navigation, choisissez Clusters. 2. Choisissez examplecluster pour l'ouvrir et vérifiez que vous êtes sur l'onglet Configuration. 3. Sous Propriétés du cluster, pour Groupes de sécurité VPC, choisissez votre groupe de sécurité. 4. Une fois que le groupe de sécurité s'affiche dans la console Amazon EC2, sélectionnez l'onglet Inbound. 5. Choisissez Modifier et entrez les informations suivantes, puis sélectionnez Enregistrer : • Type : Règle TCP personnalisée. • Protocole : TCP. • Plage de ports : entrez le même numéro de port que celui que vous avez utilisé lors du lancement du cluster. Le port par défaut pour Amazon Redshift est 5439, mais votre port peut être différent. • Source : sélectionnez IP personnalisée, puis entrez 0.0.0.0/0. Important L'utilisation de l'adresse 0.0.0.0/0 n'est pas recommandée à d'autres fins que celles de démonstration, car elle permet autorise l'accéder depuis n'importe quel ordinateur sur Internet. Dans un environnement réel, vous devez créer des règles entrantes en fonction de vos propres paramètres réseau. Version 01/12/2012 11 Amazon Redshift Guide de démarrage Pour configurer le groupe de sécurité Amazon Redshift Pour configurer le groupe de sécurité Amazon Redshift 1. Dans la console Amazon Redshift, dans le volet de navigation, choisissez Clusters. 2. Choisissez examplecluster pour l'ouvrir et vérifiez que vous êtes sur l'onglet Configuration. 3. Sous Propriétés du cluster, pour Groupes de sécurité du cluster, choisissez par défaut pour ouvrir le groupe de sécurité par défaut. 4. Sur l'onglet Groupes de sécurité, dans la liste des groupes de sécurité de cluster, choisissez le groupe de sécurité du cluster dont vous voulez gérer les règles. 5. Sur l'onglet Connexions du groupe de sécurité, choisissez Ajouter un type de connexion. 6. Dans la zone Type de connexion, choisissez Adresse CIDR/IP. Dans Adresse CIDR/IP à autoriser, entrez 0.0.0.0/0 et choisissez Autoriser. Important L'utilisation de l'adresse 0.0.0.0/0 n'est pas recommandée à d'autres fins que celles de démonstration, car elle permet autorise l'accéder depuis n'importe quel ordinateur sur Internet. Dans un environnement réel, vous devez créer des règles entrantes en fonction de vos propres paramètres réseau. Version 01/12/2012 12 Amazon Redshift Guide de démarrage Etape 5 : Se connecter au cluster Etape 5 : Se connecter à l'exemple de cluster Vous connecter à présent vous connecter votre cluster à l'aide d'un outil client SQL et exécuter une requête simple pour tester la connexion. Vous pouvez utiliser la plupart des outils clients SQL compatibles avec PostgreSQL. Dans le cadre de ce didacticiel, vous utiliserez le client SQL Workbench/J que vous avez installé dans la section des prérequis de ce didacticiel. Terminez cette section en effectuant les étapes suivantes : • Pour obtenir votre chaîne de connexion (p. 13) • Pour se connecter à partir de SQL Workbench/J à votre cluster (p. 14) Après avoir terminé cette étape, vous pouvez déterminer si vous souhaitez charger des exemples de données depuis Amazon S3 à l'Etape 6 : Charger des exemples de données depuis Amazon S3 (p. 16) ou rechercher davantage d'informations sur Amazon Redshift et réinitialiser votre environnement à la section Comment procéder ensuite ? (p. 21). Pour obtenir votre chaîne de connexion 1. Dans la console Amazon Redshift, dans le volet de navigation, choisissez Clusters. 2. Choisissez examplecluster pour l'ouvrir et vérifiez que vous êtes sur l'onglet Configuration. 3. Sur l'onglet Configuration, sous Propriétés de la base de données du cluster, copiez l'URL JDBC du cluster. Note Le point de terminaison de votre cluster n'est pas disponible tant que le cluster n'est pas créé et en état disponible. Version 01/12/2012 13 Amazon Redshift Guide de démarrage Pour se connecter à partir de SQL Workbench/J à votre cluster Pour se connecter à partir de SQL Workbench/J à votre cluster Cette étape suppose que vous ayez installé SQL Workbench/J dans Etape 1 : Définir les prérequis (p. 2). 1. Ouvrez SQL Workbench/J. 2. Choisissez File, puis Connect window. 3. Choisissez Create a new connection profile. 4. Dans la zone de texte New profile, entrez un nom pour le profil. 5. Choisissez Manage Drivers. La boîte de dialogue Manage Drivers s'ouvre. 6. Cliquez sur le bouton Create a new entry. Dans la zone de texte Name, entrez un nom pour le pilote. Sélectionnez l'icône du dossier en regard de la zone Library, accédez à l'emplacement du pilote, sélectionnez-le et cliquez sur Open. Version 01/12/2012 14 Amazon Redshift Guide de démarrage Pour se connecter à partir de SQL Workbench/J à votre cluster Si la boîte de dialogue Please select one driver s'affiche, sélectionnez com.amazon.redshift.jdbc4.Driver ou com.amazon.redshift.jdbc41.Driver et choisissez OK. SQL Workbench/J renseigne automatiquement la zone Classname. Laissez la zone Sample URL vide, puis choisissez OK. 7. Dans la zone Driver, choisissez le pilote que vous venez d'ajouter. 8. Dans URL, copiez l'URL JDBC dans la Amazon Redshift console et collez-la ici. 9. Dans Username, entrez masteruser. 10. Dans Password, entrez le mot de passe associé au compte utilisateur principal. 11. Activez la case à cocher Autocommit. 12. Cliquez sur l'icône Save profile list, comme indiqué ci-dessous : 13. Choisissez OK. Version 01/12/2012 15 Amazon Redshift Guide de démarrage Etape 6 : Charger des exemples de données Etape 6 : Charger des exemples de données depuis Amazon S3 A ce stade, vous disposez d'une base de données appelée dev à laquelle vous êtes connecté. A présent, vous allez créer des tables dans la base de données, charger des données dans les tables et essayez d'exécuter une requête. Pour plus de commodité, les exemples de données que vous allez charger sont disponibles dans un compartiment Amazon S3. Note Avant de commencer, assurez-vous que votre client SQL Workbench/J est connecté au cluster. Une fois cette étape terminée, vous pouvez trouver davantage d'informations sur Amazon Redshift et réinitialiser votre environnement à la section Comment procéder ensuite ? (p. 21). 1. Créez des tables. Copiez et exécutez les instructions de table de création suivantes afin de créer des tables de la base de données dev. Pour plus d'informations sur la syntaxe, consultez CREATE TABLE dans le manuel Amazon Redshift Database Developer Guide. create table users( userid integer not null distkey sortkey, username char(8), firstname varchar(30), lastname varchar(30), city varchar(30), state char(2), email varchar(100), phone char(14), likesports boolean, liketheatre boolean, likeconcerts boolean, likejazz boolean, likeclassical boolean, likeopera boolean, likerock boolean, Version 01/12/2012 16 Amazon Redshift Guide de démarrage Etape 6 : Charger des exemples de données likevegas boolean, likebroadway boolean, likemusicals boolean); create table venue( venueid smallint not null distkey sortkey, venuename varchar(100), venuecity varchar(30), venuestate char(2), venueseats integer); create table category( catid smallint not null distkey sortkey, catgroup varchar(10), catname varchar(10), catdesc varchar(50)); create table date( dateid smallint not null distkey sortkey, caldate date not null, day character(3) not null, week smallint not null, month character(5) not null, qtr character(5) not null, year smallint not null, holiday boolean default('N')); create table event( eventid integer not null distkey, venueid smallint not null, catid smallint not null, dateid smallint not null sortkey, eventname varchar(200), starttime timestamp); create table listing( listid integer not null distkey, sellerid integer not null, eventid integer not null, dateid smallint not null sortkey, numtickets smallint not null, priceperticket decimal(8,2), totalprice decimal(8,2), listtime timestamp); create table sales( salesid integer not null, listid integer not null distkey, sellerid integer not null, buyerid integer not null, eventid integer not null, dateid smallint not null sortkey, qtysold smallint not null, pricepaid decimal(8,2), commission decimal(8,2), saletime timestamp); 2. Chargez des exemples de données depuis Amazon S3 à l'aide de la commande COPY. Note Nous vous recommandons d'utiliser la commande COPY pour charger des ensembles de données volumineux dans Amazon Redshift depuis Amazon S3 ou DynamoDB. Pour plus d'informations sur la syntaxe de la commande COPY, consultez COPY dans le manuel Amazon Redshift Database Developer Guide. Version 01/12/2012 17 Amazon Redshift Guide de démarrage Etape 6 : Charger des exemples de données Les exemples de données fournies dans ce didacticiel se trouvent dans un compartiment Amazon S3 appartenant à Amazon Redshift. Les autorisations de compartiment sont configurées afin d'accorder à tous les utilisateurs AWS authentifiés un accès en lecture aux fichiers d'exemples de données. Pour charger les exemples de données, vous devez fournir l'authentification de votre cluster afin qu'il accède à Amazon S3 en votre nom. Vous pouvez fournir une authentification basée sur les rôles ou une authentification basée sur des clés. Nous vous recommandons d'utiliser l'authentification basée sur les rôles. Pour plus d'informations sur les deux types d'authentification, consultez CREDENTIALS dans le manuel Amazon Redshift Database Developer Guide. Pour cette étape, vous devez fournir l'authentification en faisant référence au rôle IAM que vous avez créé, puis attaché à votre cluster au cours des étapes précédentes. Note Si vous ne disposez pas des autorisations appropriées pour accéder à Amazon S3, vous recevez le message d'erreur suivant lorsque vous exécutez la commande COPY : S3ServiceException: Access Denied. Les commandes COPY incluent un espace réservé pour l'ARN du rôle IAM, comme illustré dans l'exemple suivant. copy users from 's3://awssampledbuswest2/tickit/allusers_pipe.txt' credentials 'aws_iam_role=<iam-role-arn>' delimiter '|' region 'us-west-2'; Pour autoriser l'accès à l'aide d'un rôle IAM, remplacez <iam-role-arn> dans la chaîne de paramètre CREDENTIALS par l'ARN du rôle IAM vous avez créé dans Etape 2 : Créer un rôle IAM (p. 3). Votre commande COPY sera similaire à l'exemple suivant. copy users from 's3://awssampledbuswest2/tickit/allusers_pipe.txt' credentials 'aws_iam_role=arn:aws:iam::123456789012:role/myRedshiftRole' delimiter '|' region 'us-west-2'; Pour charger les exemples de données, remplacez <iam-role-arn> dans les commandes COPY suivantes avec l'ARN de votre rôle. Puis, exécutez les commandes dans votre outil client SQL. copy users from 's3://awssampledbuswest2/tickit/allusers_pipe.txt' credentials 'aws_iam_role=<iam-role-arn>' delimiter '|' region 'us-west-2'; copy venue from 's3://awssampledbuswest2/tickit/venue_pipe.txt' credentials 'aws_iam_role=<iam-role-arn>' delimiter '|' region 'us-west-2'; copy category from 's3://awssampledbuswest2/tickit/category_pipe.txt' credentials 'aws_iam_role=<iam-role-arn>' delimiter '|' region 'us-west-2'; copy date from 's3://awssampledbuswest2/tickit/date2008_pipe.txt' credentials 'aws_iam_role=<iam-role-arn>' delimiter '|' region 'us-west-2'; copy event from 's3://awssampledbuswest2/tickit/allevents_pipe.txt' credentials 'aws_iam_role=<iam-role-arn>' delimiter '|' timeformat 'YYYY-MM-DD HH:MI:SS' region 'us-west-2'; copy listing from 's3://awssampledbuswest2/tickit/listings_pipe.txt' Version 01/12/2012 18 Amazon Redshift Guide de démarrage Etape 6 : Charger des exemples de données credentials 'aws_iam_role=<iam-role-arn>' delimiter '|' region 'us-west-2'; copy sales from 's3://awssampledbuswest2/tickit/sales_tab.txt' credentials 'aws_iam_role=<iam-role-arn>' delimiter '\t' timeformat 'MM/DD/YYYY HH:MI:SS' region 'us-west-2'; 3. A présent, essayez les exemples de requêtes. Pour plus d'informations, consultez SELECT dans le Guide du développeur Amazon Redshift. -- Get definition for the sales table. SELECT * FROM pg_table_def WHERE tablename = 'sales'; -- Find total sales on a given calendar date. SELECT sum(qtysold) FROM sales, date WHERE sales.dateid = date.dateid AND caldate = '2008-01-05'; -- Find top 10 buyers by quantity. SELECT firstname, lastname, total_quantity FROM (SELECT buyerid, sum(qtysold) total_quantity FROM sales GROUP BY buyerid ORDER BY total_quantity desc limit 10) Q, users WHERE Q.buyerid = userid ORDER BY Q.total_quantity desc; -- Find events in the 99.9 percentile in terms of all time gross sales. SELECT eventname, total_price FROM (SELECT eventid, total_price, ntile(1000) over(order by total_price desc) as percentile FROM (SELECT eventid, sum(pricepaid) total_price FROM sales GROUP BY eventid)) Q, event E WHERE Q.eventid = E.eventid AND percentile = 1 ORDER BY total_price desc; 4. Le cas échéant, vous pouvez accéder à la console Amazon Redshift pour vérifier les requêtes que vous avez exécutées. L'onglet Requêtes affiche une liste des requêtes que vous avez exécutées sur une période que vous spécifiez. Par défaut, la console affiche les requêtes qui ont été exécutées au cours des dernières 24 heures, y compris les requêtes en cours d'exécution. • Connectez-vous à la AWS Management Console et ouvrez la console Amazon Redshift à l'adresse https://console.aws.amazon.com/redshift/. • Dans la liste des clusters affichée dans le volet droit, sélectionnez examplecluster. • Choisissez l'onglet Requêtes. La console affiche la liste des requêtes que vous avez exécutées comme illustré dans l'exemple cidessous. Version 01/12/2012 19 Amazon Redshift Guide de démarrage Etape 7 : Rechercher des ressources supplémentaires et réinitialiser votre environnement • Pour plus d'informations sur une requête, cliquez sur le lien de l'ID de requête dans la colonne Requête ou choisissez l'icône de loupe. L'exemple suivant affiche les détails d'une requête que vous avez exécutée au cours d'une étape précédente. Etape 7 : Rechercher des ressources supplémentaires et réinitialiser votre environnement Lorsque vous aurez terminé ce didacticiel, vous pourrez accéder à d'autres ressources Amazon Redshift vous permettant d'en savoir plus sur les concepts présentés dans ce manuel, ou bien vous pourrez réinitialiser votre environnement à l'état précédent. Vous souhaiterez peut-être conserver l'exemple de cluster en cours d'exécution si vous avez l'intention de tester des tâches d'autres manuels Amazon Redshift. Toutefois, n'oubliez pas que vous continuerez d'être facturé pour votre cluster tant que celui-ci sera en cours d'exécution. Vous devez annuler l'accès au cluster et le supprimer si vous n'en avez plus besoin afin de ne plus être facturé. Version 01/12/2012 20 Amazon Redshift Guide de démarrage Comment procéder ensuite ? Comment procéder ensuite ? Ressources supplémentaires Nous vous recommandons de continuer pour en savoir plus sur les concepts présentés dans ce manuel grâce aux ressources suivantes : • Présentation de la gestion Amazon Redshift : Cette rubrique fournit une présentation de Amazon Redshift. • Amazon Redshift Cluster Management Guide : ce manuel repose sur ce manuel Amazon Redshift Mise en route et fournit des informations détaillées sur les concepts et les tâches de création, de gestion et de surveillance des clusters. • Amazon Redshift Database Developer Guide : ce manuel repose sur ce manuel Amazon Redshift Mise en route en fournissant aux développeurs de bases de données des informations sur la conception, le développement, l'interrogation et la maintenance des bases de données qui constituent votre entrepôt de données. Réinitialisation de votre environnement Lorsque vous aurez terminé ce didacticiel, vous devrez réinitialiser votre environnement à l'état précédent en procédant comme suit : • Révoquer l'accès au port et l'Adresse CIDR/IP à laquelle vous avez autorisé l'accès : Si vous avez utilisé la plateforme EC2-VPC pour lancer votre cluster, effectuez les étapes décrites dans la section Pour révoquer l'accès depuis le groupe de sécurité VPC (p. 21). Si vous avez utilisé la plateforme EC2-Classic pour lancer votre cluster, effectuez les étapes décrites dans la section Pour révoquer l'accès depuis le groupe de sécurité du cluster (p. 22). • Supprimez votre exemple de cluster. Vous continuez à payer des frais pour le service Amazon Redshift tant que vous n'aurez pas supprimé le cluster. Effectuez les étapes décrites dans la section Pour supprimer l'exemple de cluster (p. 23). Pour révoquer l'accès depuis le groupe de sécurité VPC 1. Dans la console Amazon Redshift, dans le volet de navigation, choisissez Clusters. 2. Choisissez examplecluster pour l'ouvrir, et vérifiez que vous êtes sur l'onglet Configuration. 3. Sous Propriétés du cluster, sélectionnez le groupe de sécurité vpc. 4. Une fois le groupe de sécurité par défaut sélectionné, choisissez l'onglet Inbound, puis Modifier. Version 01/12/2012 21 Amazon Redshift Guide de démarrage Comment procéder ensuite ? 5. Supprimez la règle de trafic entrant TCP/IP personnalisée que vous avez créée pour votre port et l'adresse CIDR/IP 0.0.0.0/0. Ne supprimez pas d'autre règle, telle que la règle Tout le trafic qui a été créée pour le groupe de sécurité par défaut. Choisissez Save. Pour révoquer l'accès depuis le groupe de sécurité du cluster 1. Dans la console Amazon Redshift, dans le volet de navigation, choisissez Clusters. 2. Choisissez examplecluster pour l'ouvrir, et vérifiez que vous êtes sur l'onglet Configuration. 3. Sous Propriétés du cluster, pour Groupes de sécurité du cluster, choisissez par défaut pour ouvrir le groupe de sécurité par défaut. 4. Sur l'onglet Groupes de sécurité, dans la liste des groupes de sécurité du cluster, sélectionnez le groupe de sécurité du cluster par défaut. 5. Sur l'onglet Connexions du groupe de sécurité, sélectionnez la règle de trafic entrant d'adresse CIDR/ IP personnalisée que vous avez créée pour l'adresse CIDR/IP 0.0.0.0/0 et choisissez Révoquer. Version 01/12/2012 22 Amazon Redshift Guide de démarrage Comment procéder ensuite ? Pour supprimer l'exemple de cluster 1. Dans la console Amazon Redshift, dans le volet de navigation, choisissez Clusters. 2. Choisissez examplecluster pour l'ouvrir, et vérifiez que vous êtes sur l'onglet Configuration. 3. Dans le menu Cluster, choisissez Delete. 4. Dans la fenêtre Delete Cluster, pour Create snapshot, choisissez No, puis Delete. 5. Dans la fenêtre de détails du cluster, le Statut du cluster affiche le cluster en cours de suppression. Version 01/12/2012 23 Amazon Redshift Guide de démarrage Comment procéder ensuite ? Version 01/12/2012 24 Amazon Redshift Guide de démarrage Historique du document Le tableau suivant décrit les modifications significatives apportées à ce document depuis la publication du dernier Guide de démarrage de Amazon Redshift. Dernière mise à jour de la documentation : 28 juillet 2015 Modification Description Date de parution Nouvelle fonction Mise à jour du guide pour lancer les clusters depuis le tableau de bord Amazon Redshift. 28 juillet 2015 Nouvelle fonction Mise à jour du guide pour utiliser de nouveaux noms de types de nœud. 9 juin 2015 Mise à jour de la documentation Mise à jour des captures d'écran et de la procédure de configuration des groupes de sécurité VPC. 30 avril 2015 Mise à jour de la documentation Mise à jour des captures d'écran et des procédures pour correspondre à la console actuelle. 12 novembre 2014 Mise à jour de la documentation Déplacement des données de chargement depuis les informations Amazon S3 dans leur propre section et déplacement de la section des étapes suivantes dans l'étape finale pour plus de clarté. 13 mai 2014 Mise à jour de la documentation Suppression de la page d'accueil et intégration du contenu dans la page de mise en route principale. 14 mars 2014 Mise à jour de la documentation Ce document est une nouvelle version du Guide de démarrage Amazon Redshift qui traite des commentaires des clients et des mises à jour du service. 14 mars 2014 Nouveau Guide Il s'agit de la première version du Guide de démarrage Amazon Redshift. 14 février 2013 Version 01/12/2012 25