CITO Research Advancing the craft of technology leadership SEPTEMBRE 2013 Guide d'achat sur l'intégration du Big Data Commandité par Sommaire Introduction 1 Les enjeux de l'intégration du Big Data : hier et aujourd'hui 1 Fonctionnalités nécessaires à l'intégration du Big Data 3 Architecture technologique privilégiée 6 Les fruits d'une intégration réussie du Big Data 7 Guide d’achat sur l’intégration du Big Data 1 CITO Research Advancing the craft of technology leadership Introduction Le phénomène de « Big Data », autrement dit l'émergence de nouveaux types de données dans des volumes toujours plus impressionnants, pousse les directeurs informatiques et les dirigeants à repenser leur portefeuille technologique. Plutôt que d'élaborer leur propre infrastructure, la plupart des entreprises préfèrent l'acheter. Mais comment faire le bon choix ? Et comment obtenir un ensemble cohérent ? La nécessité d'une nouvelle technologie représente le premier défi du Big Data. Cela ne signifie pas que tous les autres types de données et de technologies soient obsolètes. Hadoop, les bases de données NoSQL, les bases de données analytiques et les entrepôts de données cohabitent sans problème. Les analystes ne se soucient pas de l'origine des données : ils les passeront à la moulinette, quelle que soit leur source. L'intégration des données constitue le second défi. Comment faire en sorte que la nouvelle technologie de traitement du Big Data utilise les données et les technologies existantes ? Comment améliorer les données et les technologies existantes en y ajoutant le Big Data ? Et comment permettre aux nouvelles formes d'analytique et aux applications d'exploiter à la fois les nouvelles et les anciennes données ? D'après CITO Research, les directeurs informatiques et les dirigeants ont tout intérêt à intégrer le nouvel univers du Big Data avec l'ancien monde de la BI afin d'accélérer le progrès. Le présent guide d'achat vous aidera à acheter la technologie adéquate pour l'intégration du Big Data. Les enjeux de l'intégration du Big Data : hier et aujourd'hui Les passionnés de Big Data sont conscient des différences entre ce phénomène et les anciennes générations de données. Elles se résument souvent en trois mots, les « 3 V » : volume, variété, vitesse. Ce concept a été introduit par Doug Laney, analyste chez Gartner, pour décrire le phénomène Big Data. La difficulté consiste à trouver un référentiel capable de traiter d'énormes volumes de données. L'analyse de flux de données issues de machines, de serveurs et d'appareils mobiles, parfois appelé « Internet des objets », est problématique. L'écosystème Hadoop a été conçu pour traiter le volume et la variété de ces données, mais de nombreux produits tels que Splunk sont également en mesure d'absorber de grandes quantités de Big Data orienté machine. De plus, les données générées automatiquement exigent souvent de nouvelles techniques d'exploration et d'analyse, ce qui représente un défi supplémentaire. La majeure partie du Big Data est non structurée. Par ailleurs, des documents en texte brut et des vidéos s'ajoutent aux types de données. L'apprentissage automatique, l'analyse de textes ou de vidéos et une multitude d'autres techniques, appliquées aux données dans Hadoop ou dans des bases de données NoSQL et analytiques permettent de donner du sens à des données désordonnées. Une fois ces défis relevés, les tâches liées à l'utilisation du Big Data ressemblent étrangement à celles qui concernaient les données existantes (voir « Défis communs au Big Data et aux données existantes »). Guide d’achat sur l’intégration du Big Data 2 CITO Research Advancing the craft of technology leadership Défis communs au Big Data et aux données existantes QQ Fusion de données provenant de sources distinctes QQ Prise en charge de l'exploration QQ Création d'une version unique et réutilisable de la vérité QQ Structuration d'ensembles de données fusionnées pour une analytique plus exhaustive QQ Développement de l'utilisation des données QQ Création d'environnements analytiques avancés QQ Prise en charge des applications QQ Contrôle des accès QQ Gestion du cycle de vie de l'analytique QQ Mise en conformité L'équation applicable à la gestion du Big Data ressemble à ceci : (Référentiel pour le stockage et le traitement du Big Data) + (Nouvelles techniques d'analyse du Big Data) + (BI existante) = Environnement Big Data intégré S'il est certain que le Big Data révolutionne de nombreux aspects de la BI, celle-ci n'en devient pas obsolète pour autant. Autrement dit, la voie à suivre pour intégrer le Big Data consiste sans doute à recourir à des solutions d'intégration de données existantes qui ont été adaptées en vue d'incorporer le Big Data. De plus, il convient de différencier la validation d'un concept et l'opérationnalisation du Big Data. Une technologie d'intégration du Big Data doit non seulement permettre de réaliser une expérience scientifique, mais elle doit également gérer l'intégralité du cheminement vers la pleine utilisation du Big Data, conjointement avec les applications et systèmes de BI existants. Guide d’achat sur l’intégration du Big Data 3 CITO Research Advancing the craft of technology leadership Du modèle en étoile à la chaîne d'approvisionnement de données Le mariage du Big Data avec la BI existante entraînera un changement conceptuel considérable. L'entrepôt de données ne sera plus au centre de l'univers. De nombreux référentiels spécialisés prendront en charge les applications ou les nouvelles formes d'analyse. En outre, les données proviendront de plus en plus souvent de sources externes à l'entreprise par l'intermédiaire d'API. Au lieu du modèle en étoile, au centre duquel se trouve l'entrepôt de données, l'infrastructure de traitement des données ressemblera davantage à une chaîne d'approvisionnement distribuée. Le Big Data est le principal moteur de ce nouveau modèle, et son intégration est la clé de son fonctionnement. Les directeurs informatiques et les dirigeants soucieux d'exploiter rapidement le Big Data et la BI existante ont tout intérêt à acquérir les fonctionnalités suivantes, qui formeront la base d'une nouvelle chaîne d'approvisionnement de données. Fonctionnalités nécessaires à l'intégration du Big Data Bien que la technologie d'intégration actuelle propose de nombreuses fonctionnalités permettant d'accéder aux données, de les déplacer et de les transformer, le Big Data introduit de nouvelles exigences. Pour opérer les bons choix quant à l'assemblage des composants d'un système d'intégration du Big Data, réfléchissez à ce dont vous avez besoin. La plupart des entreprises nécessitent les fonctionnalités suivantes pour prendre en charge l'intégration du Big Data. Connexion, transport et transformation L'accès aux données, leur déplacement et leur transformation sont au cœur de plusieurs générations de technologies d'intégration des données. L'intégration du Big Data change la donne. L'accès aux données via Hadoop ou via des bases de données NoSQL et analytiques doit être pris en charge. Il est primordial de pouvoir définir ou découvrir un schéma. La technologie moderne d'intégration de données doit être déployée à la fois dans des modèles Cloud et sur site. La synchronisation des données entre référentiels est indispensable à mesure que la chaîne d'approvisionnement des données se complexifie. La technologie d'intégration des données devra proposer des mécanismes de transfert capables de gérer les nouveaux volumes. Les informations issues de l'analyse du Big Data doivent être fournies aux applications afin que des modèles plus détaillés de la réalité soient disponibles. Par exemple, plutôt que de se limiter aux bases de données SQL, les données seront synchronisées à l'aide d'une technologie d'analytique en mémoire. La capacité à transformer les données demeure une fonctionnalité cruciale. Les outils doivent simplifier au maximum la conception et la mise en œuvre des transformations. Pour pouvoir remplir leurs fonctions, les analystes doivent être en mesure de combiner et d'extraire des données de sources très variées. Ce travail a lieu en grande partie dans la couche d'intégration des données. Les transformations doivent pouvoir être réutilisées et partagées. L'intégration du Big Data implique la possibilité de traiter des flux de données en temps réel en provenance de systèmes de messagerie, de bus de services d'entreprise et de fichiers journaux de serveurs. Guide d’achat sur l’intégration du Big Data 4 CITO Research Advancing the craft of technology leadership Intégration et présentations canoniques Quels changements apportera le Big Data ? Lors de l'évaluation d'une technologie d'intégration, assurez-vous que les données existantes et le Big Data sont facilement intégrables et stockables sous forme canonique. Voici ce qui n'arrivera pas : toutes vos données et applications ne s'appuieront pas sur le Big Data et n'utiliseront pas la technologie propre au Big Data comme référentiel principal. Les données de BI et les entrepôts de données que vous avez créés ne perdront pas instantanément leur utilité. Enfin, le Big Data à lui seul ne répondra pas à toutes les questions stratégiques. Que peut-on en déduire ? Tout simplement que dans la plupart des cas, les bonnes réponses proviennent de la fusion du Big Data avec les données principales et transactionnelles stockées dans des entrepôts. Le meilleur moyen d'exploiter pleinement le Big Data est de le combiner avec les données existantes. Cette forme d'intégration de données est essentielle à tous les niveaux de l'analyse, du nettoyage de données à la prise en charge de visualisations avancées, en passant par la création de référentiels spécialisés. Il est par conséquent indispensable que la technologie d'intégration de données combine le Big Data avec les formes de données existantes, généralement stockées dans des référentiels SQL. Autrement dit, il est important de choisir une technologie qui comprenne aussi bien le langage natif des sources de Big Data, comme Hadoop et les bases de données analytiques et NoSQL, que le langage SQL traditionnel. Ne réduisez pas le Big Data à un silo en créant une infrastructure, une équipe et des compétences distinctes. Pour combiner le Big Data aux données existantes, il convient de créer des formes canoniques de plusieurs types d'informations. Un des objectifs des systèmes de BI a toujours été de fournir un enregistrement client principal proposant une vue à 360 degrés du client. Dans l'ère du Big Data, des informations complémentaires comme l'activité sur les réseaux sociaux, les données d'applications mobiles, l'utilisation d'un site Web, etc. peuvent enrichir ces enregistrements. Il est également important de gérer les définitions canoniques de données dans un cycle de vie, afin de mieux contrôler les changements apportés aux formes standard de données. Exploration de données Votre technologie d'intégration du Big Data doit prendre en charge l'exploration à tous les niveaux de la chaîne d'approvisionnement des données, et proposer une découverte et une visualisation automatiques des schémas. Lorsqu'une société exploite des données, il est primordial que tout le monde (analyste, utilisateur final, développeur et toute autre personne intéressée) puisse manipuler ces données et poser des questions. Cette approche pratique de l'examen et de la manipulation des données est nécessaire à tous les niveaux du système. Peu importe que les données résident dans un cluster Hadoop, dans une base de données NoSQL, dans un référentiel spécialisé, dans un environnement analytique en mémoire ou dans une application. Les meilleurs résultats seront obtenus lorsque n'importe qui pourra soumettre une question et voir si les données peuvent fournir la réponse. En ce qui concerne le Big Data, cela implique généralement l'utilisation d'un environnement d'exploration conjointement avec les référentiels. L'accès aux données dans ces derniers exigent souvent l'écriture de programmes ou l'utilisation de requêtes complexes. Toutefois, lorsque le Big Data est associé à d'autres données, il convient également de prendre en charge le besoin d'exploration. Alors que les analystes et les développeurs effectuent Guide d’achat sur l’intégration du Big Data 5 CITO Research Advancing the craft of technology leadership leurs explorations dans des référentiels, les utilisateurs doivent également pouvoir explorer les données dans les applications et les environnements analytiques qu'ils utilisent. L'un des obstacles majeurs lors de la création d'environnements d'exploration pour le Big Data réside dans le fait que les données sont rarement structurées en lignes et en colonnes. En effet, chaque enregistrement peut être composé de nombreuses parties distinctes. Et plusieurs enregistrements peuvent former un groupe représentant un objet. La date de création de chaque enregistrement peut jouer un rôle important dans le regroupement. La technologie d'intégration du Big data doit favoriser une exploration rapide avec une structure flexible, en créant le schéma suggéré à la volée qui tente d'identifier des champs et des tendances. La visualisation peut constituer un accélérateur considérable en matière d'exploration de données. Depuis le milieu des années 2000, le monde de la Business Intelligence a enregistré des avancées majeures dans la création de visualisations séduisantes. Le meilleur de ces systèmes doit permettre aux analystes de voir les données sous une forme engageante, de poser des questions et d'apporter des réponses dans une démarche guidée par la curiosité. La technologie idéale d'intégration du Big Data permet d'explorer visuellement les données, quel que soit leur référentiel de stockage. Prise en charge de l'analytique En répondant aux besoins des analystes, à savoir nettoyer et filtrer les données à l'aide de l'apprentissage automatique puis partager les résultats, le processus de réponse aux questions, de création d'applications et de gestion des visualisations est accéléré. Les analystes, quel que soit leur domaine d'activité, le savent bien : 80 % des activités visant à obtenir une réponse ou à créer une application analytique sont réalisées en amont et consistent à nettoyer et à préparer les données. Les technologies d'intégration de données constituent depuis longtemps la bête de somme des analystes qui cherchent à accélérer le processus de nettoyage et d'épuration des données. Au pays du Big Data, cela signifie que toutes les fonctionnalités mentionnées précédemment doivent être présentes : mécanismes simples à utiliser pour la définition des transformations, possibilité de capturer et de réutiliser les transformations, capacité à créer et à gérer des magasins de données canoniques et possibilité d'exécuter des requêtes, de préférence en recourant aux visualisations. Bien entendu, ces fonctionnalités doivent exister pour les référentiels de Big Data et ceux qui combinent toutes formes de données. Toutefois, les analystes devront faire face à d'autres problèmes propres au Big Data. Comme nous l'avons mentionné plus haut, les données du Big Data sont souvent désordonnées et bruitées. L'apprentissage automatique est requis pour démasquer les signaux, mais ces techniques sont souvent difficiles à utiliser. La meilleure technologie d'intégration du Big Data doit offrir une expérience guidée dans laquelle un système d'apprentissage automatique propose des suggestions avant d'être orienté dans la bonne direction par les analystes. Cette approche guidée est indispensable dans la mesure où il existe une multitude de techniques d'apprentissage automatique et d'analytique avancée pour autant de types de données différents. Le système d'apprentissage employé pour créer des modèles prédictifs de données de diffusion est très différent de celui qui sert à catégoriser du texte non structuré. Lorsqu'un analyste a créé un ensemble de données nettoyé et pertinent, ces données peuvent être partagées et réutilisées de manière à démultiplier la valeur de ce travail. À l'heure actuelle, de nouveaux environnements favorisant le partage et la collaboration voient le jour. Certains prennent en charge le mélange structuré du Big Data à la source, de façon à faciliter l'utilisation du Big Data et d'en optimiser le stockage. Dans l'idéal, la technologie d'intégration du Big Data doit prendre en charge de tels environnements. Guide d’achat sur l’intégration du Big Data 6 CITO Research Advancing the craft of technology leadership Architecture technologique privilégiée La technologie idéale d'intégration du Big Data doit réduire la complexité, se montrer pérenne en proposant des abstractions et inviter le plus grand nombre d'individus et de systèmes à exploiter les données. Le système idéal d'intégration du Big Data varie pour chaque entreprise. Les entreprises qui traitent de gros volumes de données nécessiteront probablement toutes les fonctionnalités mentionnées. La plupart n'auront besoin que de certaines d'entre elles pour commencer, puis elles en ajouteront au fil du temps. Le meilleur moyen d'obtenir les capacités d'intégration du Big Data est d'acquérir un nombre minimal de systèmes dotés des fonctions requises. La majorité des fonctionnalités énumérées sont plus performantes lorsqu'elles sont conçues pour fonctionner ensemble. Il est une autre certitude dans le monde de l'analyse de données : le changement est au coin de la rue. La technologie idéale vous isolera au maximum des changements. Il incombe au fournisseur non seulement de créer des abstractions puissantes et simples à utiliser, mais également de faire en sorte qu'elles s'inscrivent dans la durée. L'évolution des technologies du Big Data ne devrait pas être votre problème. Pas plus que la restructuration inévitable qui surviendra lorsque divers types de technologies et de fournisseurs disparaîtront. Cela peut s'apparenter à une sorte d'immobilisme. Mais après tout, n'est-il pas préférable de jeter son dévolu sur un niveau d'abstraction le plus élevé possible ? En optant pour une technologie simple d'utilisation, il est possible d'éviter le goulot d'étranglement généré par un manque de compétences. Dans un environnement simplifié, un plus grand nombre d'individus peut interagir directement avec les données, ce qui donnera lieu à davantage de découvertes et de solutions autocréées. Un des principaux facteurs financiers à prendre en compte dans le choix de la technologie idoine, c'est le modèle de licence. Selon le mode de déploiement de vos logiciels et les compétences internes de votre personnel en termes de maintenance logicielle, le coût d'achat des diverses fonctionnalités peut varier énormément. Il est important de comprendre les avantages et les inconvénients des licences traditionnelles, du logiciel Open source et des différentes offres hybrides. Enfin, les meilleurs systèmes d'intégration du Big Data doivent être conçus pour être intégrés à d'autres environnements. Les formes simplifiées de transformation doivent pouvoir être orientées vers des sources de Big Data ou vers des référentiels SQL, et être exploitables depuis MapReduce ou toute application. Les visualisations doivent être affichables dans un navigateur Web ou dans les applications, et ainsi de suite. Guide d’achat sur l’intégration du Big Data 7 CITO Research Advancing the craft of technology leadership Les fruits d'une intégration réussie du Big Data Les données ne sont d'aucune utilité si aucun être humain ne peut en tirer parti ou si elles ne sont pas exploitées dans un système automatisé conçu par des êtres humains. L'intégration du Big Data vise à simplifier autant que possible l'accès aux données, leur compréhension et leur exploitation. Les fruits d'une intégration réussie du Big Data sont les avantages issus de l'utilisation des données. Réduction des délais, élimination des goulots d'étranglement dus au manque de compétences et fluidité des interactions permettent aux entreprises de gagner en rapidité et en efficacité. En achetant des composants et des systèmes qui s'intègrent dans une vision cohérente, il est possible de minimiser les coûts sans transiger pour autant sur les fonctionnalités requises. Il devrait désormais être plus facile de répondre aux questions posées précédemment : Comment faire le bon choix ? Optez pour un nombre minimal de systèmes dotés des fonctionnalités qui répondront à vos besoins présents et futurs. Ils doivent être simples d'utilisation et pérennes. Comment obtenir un ensemble cohérent ? Votre vision de l'intégration du Big Data doit intégrer les formes et les sources existantes de données dans un nouveau système prenant en charge toutes les phases d'une chaîne d'approvisionnement de données. CITO Research CITO Research est une source d'informations, d'analyses, d'études et de connaissances pour les directeurs informatiques, les directeurs de la technologie, les professionnels des technologies de l'information et autres professionnels. CITO Research dialogue avec son public afin de saisir les dernières tendances technologiques. Celles-ci sont recueillies, analysées et communiquées de manière élaborée pour aider les professionnels à résoudre des problèmes complexes liés à leur activité. Consultez notre site Web à l'adresse http://www.citoresearch.com Cet article a été créé par CITO Research et commandité par Pentaho.