Guide d`achat sur l`intégration du Big Data

publicité
CITO Research
Advancing the craft of technology leadership
SEPTEMBRE 2013
Guide d'achat
sur l'intégration
du Big Data
Commandité par
Sommaire
Introduction
1
Les enjeux de l'intégration du Big Data :
hier et aujourd'hui
1
Fonctionnalités nécessaires à l'intégration
du Big Data
3
Architecture technologique privilégiée
6
Les fruits d'une intégration réussie
du Big Data
7
Guide d’achat sur l’intégration du Big Data
1
CITO Research
Advancing the craft of technology leadership
Introduction
Le phénomène de « Big Data », autrement dit l'émergence de nouveaux types de données
dans des volumes toujours plus impressionnants, pousse les directeurs informatiques et
les dirigeants à repenser leur portefeuille technologique. Plutôt que d'élaborer leur propre
infrastructure, la plupart des entreprises préfèrent l'acheter. Mais comment faire le bon
choix ? Et comment obtenir un ensemble cohérent ?
La nécessité d'une nouvelle technologie représente le premier défi du Big Data. Cela ne
signifie pas que tous les autres types de données et de technologies soient obsolètes.
Hadoop, les bases de données NoSQL, les bases de données analytiques et les entrepôts
de données cohabitent sans problème. Les analystes ne se soucient pas de l'origine des
données : ils les passeront à la moulinette, quelle que soit leur source.
L'intégration des données constitue le second défi. Comment faire en sorte que la nouvelle
technologie de traitement du Big Data utilise les données et les technologies existantes ?
Comment améliorer les données et les technologies existantes en y ajoutant le Big Data ?
Et comment permettre aux nouvelles formes d'analytique et aux applications d'exploiter à
la fois les nouvelles et les anciennes données ?
D'après CITO Research, les directeurs informatiques et les dirigeants ont tout intérêt à intégrer
le nouvel univers du Big Data avec l'ancien monde de la BI afin d'accélérer le progrès. Le présent
guide d'achat vous aidera à acheter la technologie adéquate pour l'intégration du Big Data.
Les enjeux de l'intégration du Big Data :
hier et aujourd'hui
Les passionnés de Big Data sont conscient des différences entre ce phénomène et les
anciennes générations de données. Elles se résument souvent en trois mots, les « 3 V » :
volume, variété, vitesse. Ce concept a été introduit par Doug Laney, analyste chez Gartner,
pour décrire le phénomène Big Data.
La difficulté consiste à trouver un référentiel capable de traiter d'énormes volumes de données.
L'analyse de flux de données issues de machines, de serveurs et d'appareils mobiles, parfois
appelé « Internet des objets », est problématique. L'écosystème Hadoop a été conçu pour
traiter le volume et la variété de ces données, mais de nombreux produits tels que Splunk sont
également en mesure d'absorber de grandes quantités de Big Data orienté machine.
De plus, les données générées automatiquement exigent souvent de nouvelles techniques
d'exploration et d'analyse, ce qui représente un défi supplémentaire. La majeure partie du
Big Data est non structurée. Par ailleurs, des documents en texte brut et des vidéos s'ajoutent
aux types de données. L'apprentissage automatique, l'analyse de textes ou de vidéos et une
multitude d'autres techniques, appliquées aux données dans Hadoop ou dans des bases de
données NoSQL et analytiques permettent de donner du sens à des données désordonnées.
Une fois ces défis relevés, les tâches liées à l'utilisation du Big Data ressemblent étrangement
à celles qui concernaient les données existantes (voir « Défis communs au Big Data et aux
données existantes »).
Guide d’achat sur l’intégration du Big Data
2
CITO Research
Advancing the craft of technology leadership
Défis communs au Big Data et aux données existantes
QQ
Fusion de données provenant de sources distinctes
QQ
Prise en charge de l'exploration
QQ
Création d'une version unique et réutilisable de la vérité
QQ
Structuration d'ensembles de données fusionnées pour une analytique
plus exhaustive
QQ
Développement de l'utilisation des données
QQ
Création d'environnements analytiques avancés
QQ
Prise en charge des applications
QQ
Contrôle des accès
QQ
Gestion du cycle de vie de l'analytique
QQ
Mise en conformité
L'équation applicable à la gestion du Big Data ressemble à ceci :
(Référentiel pour le stockage et le traitement du Big Data) +
(Nouvelles techniques d'analyse du Big Data) + (BI existante)
= Environnement Big Data intégré
S'il est certain que le Big Data révolutionne de nombreux aspects de la BI, celle-ci n'en
devient pas obsolète pour autant. Autrement dit, la voie à suivre pour intégrer le Big Data
consiste sans doute à recourir à des solutions d'intégration de données existantes qui ont
été adaptées en vue d'incorporer le Big Data.
De plus, il convient de différencier la validation d'un concept et l'opérationnalisation du Big
Data. Une technologie d'intégration du Big Data doit non seulement permettre de réaliser une
expérience scientifique, mais elle doit également gérer l'intégralité du cheminement vers la
pleine utilisation du Big Data, conjointement avec les applications et systèmes de BI existants.
Guide d’achat sur l’intégration du Big Data
3
CITO Research
Advancing the craft of technology leadership
Du modèle en étoile à la chaîne d'approvisionnement de données
Le mariage du Big Data avec la BI existante entraînera un changement conceptuel considérable.
L'entrepôt de données ne sera plus au centre de l'univers. De nombreux référentiels spécialisés
prendront en charge les applications ou les nouvelles formes d'analyse. En outre, les données
proviendront de plus en plus souvent de sources externes à l'entreprise par l'intermédiaire d'API.
Au lieu du modèle en étoile, au centre duquel se trouve l'entrepôt de données, l'infrastructure de
traitement des données ressemblera davantage à une chaîne d'approvisionnement distribuée.
Le Big Data est le principal moteur de ce nouveau modèle, et son intégration est la clé de
son fonctionnement. Les directeurs informatiques et les dirigeants soucieux d'exploiter
rapidement le Big Data et la BI existante ont tout intérêt à acquérir les fonctionnalités
suivantes, qui formeront la base d'une nouvelle chaîne d'approvisionnement de données.
Fonctionnalités nécessaires à l'intégration
du Big Data
Bien que la
technologie
d'intégration
actuelle propose
de nombreuses
fonctionnalités
permettant d'accéder
aux données, de les
déplacer et de les
transformer, le Big
Data introduit de
nouvelles exigences.
Pour opérer les bons choix quant à l'assemblage des composants d'un système d'intégration
du Big Data, réfléchissez à ce dont vous avez besoin. La plupart des entreprises nécessitent
les fonctionnalités suivantes pour prendre en charge l'intégration du Big Data.
Connexion, transport et transformation
L'accès aux données, leur déplacement et leur transformation sont au cœur de plusieurs
générations de technologies d'intégration des données. L'intégration du Big Data change
la donne.
L'accès aux données via Hadoop ou via des bases de données NoSQL et analytiques doit
être pris en charge. Il est primordial de pouvoir définir ou découvrir un schéma.
La technologie moderne d'intégration de données doit être déployée à la fois dans des
modèles Cloud et sur site.
La synchronisation des données entre référentiels est indispensable à mesure que la
chaîne d'approvisionnement des données se complexifie. La technologie d'intégration
des données devra proposer des mécanismes de transfert capables de gérer les nouveaux
volumes. Les informations issues de l'analyse du Big Data doivent être fournies aux
applications afin que des modèles plus détaillés de la réalité soient disponibles. Par exemple,
plutôt que de se limiter aux bases de données SQL, les données seront synchronisées à l'aide
d'une technologie d'analytique en mémoire.
La capacité à transformer les données demeure une fonctionnalité cruciale. Les outils
doivent simplifier au maximum la conception et la mise en œuvre des transformations.
Pour pouvoir remplir leurs fonctions, les analystes doivent être en mesure de combiner et
d'extraire des données de sources très variées. Ce travail a lieu en grande partie dans la couche
d'intégration des données. Les transformations doivent pouvoir être réutilisées et partagées.
L'intégration du Big Data implique la possibilité de traiter des flux de données en temps
réel en provenance de systèmes de messagerie, de bus de services d'entreprise et de fichiers
journaux de serveurs.
Guide d’achat sur l’intégration du Big Data
4
CITO Research
Advancing the craft of technology leadership
Intégration et présentations canoniques
Quels changements apportera le Big Data ?
Lors de l'évaluation
d'une technologie
d'intégration,
assurez-vous que les
données existantes
et le Big Data
sont facilement
intégrables et
stockables sous
forme canonique.
Voici ce qui n'arrivera pas : toutes vos données et applications ne s'appuieront pas sur le
Big Data et n'utiliseront pas la technologie propre au Big Data comme référentiel principal.
Les données de BI et les entrepôts de données que vous avez créés ne perdront pas
instantanément leur utilité.
Enfin, le Big Data à lui seul ne répondra pas à toutes les questions stratégiques.
Que peut-on en déduire ? Tout simplement que dans la plupart des cas, les bonnes réponses
proviennent de la fusion du Big Data avec les données principales et transactionnelles
stockées dans des entrepôts.
Le meilleur moyen d'exploiter pleinement le Big Data est de le combiner avec les données
existantes. Cette forme d'intégration de données est essentielle à tous les niveaux de
l'analyse, du nettoyage de données à la prise en charge de visualisations avancées, en
passant par la création de référentiels spécialisés. Il est par conséquent indispensable
que la technologie d'intégration de données combine le Big Data avec les formes de
données existantes, généralement stockées dans des référentiels SQL.
Autrement dit, il est important de choisir une technologie qui comprenne aussi bien le
langage natif des sources de Big Data, comme Hadoop et les bases de données analytiques
et NoSQL, que le langage SQL traditionnel. Ne réduisez pas le Big Data à un silo en créant
une infrastructure, une équipe et des compétences distinctes.
Pour combiner le Big Data aux données existantes, il convient de créer des formes canoniques
de plusieurs types d'informations. Un des objectifs des systèmes de BI a toujours été de fournir
un enregistrement client principal proposant une vue à 360 degrés du client. Dans l'ère du Big
Data, des informations complémentaires comme l'activité sur les réseaux sociaux, les données
d'applications mobiles, l'utilisation d'un site Web, etc. peuvent enrichir ces enregistrements.
Il est également important de gérer les définitions canoniques de données dans un cycle
de vie, afin de mieux contrôler les changements apportés aux formes standard de données.
Exploration de données
Votre technologie
d'intégration du Big
Data doit prendre en
charge l'exploration
à tous les niveaux
de la chaîne
d'approvisionnement
des données, et
proposer une
découverte et
une visualisation
automatiques des
schémas.
Lorsqu'une société exploite des données, il est primordial que tout le monde (analyste,
utilisateur final, développeur et toute autre personne intéressée) puisse manipuler ces
données et poser des questions. Cette approche pratique de l'examen et de la manipulation
des données est nécessaire à tous les niveaux du système.
Peu importe que les données résident dans un cluster Hadoop, dans une base de données
NoSQL, dans un référentiel spécialisé, dans un environnement analytique en mémoire ou
dans une application. Les meilleurs résultats seront obtenus lorsque n'importe qui
pourra soumettre une question et voir si les données peuvent fournir la réponse.
En ce qui concerne le Big Data, cela implique généralement l'utilisation d'un environnement
d'exploration conjointement avec les référentiels. L'accès aux données dans ces derniers
exigent souvent l'écriture de programmes ou l'utilisation de requêtes complexes. Toutefois,
lorsque le Big Data est associé à d'autres données, il convient également de prendre
en charge le besoin d'exploration. Alors que les analystes et les développeurs effectuent
Guide d’achat sur l’intégration du Big Data
5
CITO Research
Advancing the craft of technology leadership
leurs explorations dans des référentiels, les utilisateurs doivent également pouvoir explorer
les données dans les applications et les environnements analytiques qu'ils utilisent.
L'un des obstacles majeurs lors de la création d'environnements d'exploration pour le Big Data
réside dans le fait que les données sont rarement structurées en lignes et en colonnes. En effet,
chaque enregistrement peut être composé de nombreuses parties distinctes. Et plusieurs
enregistrements peuvent former un groupe représentant un objet. La date de création de
chaque enregistrement peut jouer un rôle important dans le regroupement. La technologie
d'intégration du Big data doit favoriser une exploration rapide avec une structure flexible,
en créant le schéma suggéré à la volée qui tente d'identifier des champs et des tendances.
La visualisation peut constituer un accélérateur considérable en matière d'exploration de
données. Depuis le milieu des années 2000, le monde de la Business Intelligence a enregistré
des avancées majeures dans la création de visualisations séduisantes. Le meilleur de ces
systèmes doit permettre aux analystes de voir les données sous une forme engageante, de
poser des questions et d'apporter des réponses dans une démarche guidée par la curiosité.
La technologie idéale d'intégration du Big Data permet d'explorer visuellement les
données, quel que soit leur référentiel de stockage.
Prise en charge de l'analytique
En répondant
aux besoins des
analystes, à savoir
nettoyer et filtrer
les données à l'aide
de l'apprentissage
automatique
puis partager les
résultats, le processus
de réponse aux
questions, de création
d'applications et
de gestion des
visualisations est
accéléré.
Les analystes, quel que soit leur domaine d'activité, le savent bien : 80 % des activités visant
à obtenir une réponse ou à créer une application analytique sont réalisées en amont et
consistent à nettoyer et à préparer les données. Les technologies d'intégration de données
constituent depuis longtemps la bête de somme des analystes qui cherchent à accélérer le
processus de nettoyage et d'épuration des données.
Au pays du Big Data, cela signifie que toutes les fonctionnalités mentionnées précédemment
doivent être présentes : mécanismes simples à utiliser pour la définition des transformations,
possibilité de capturer et de réutiliser les transformations, capacité à créer et à gérer des
magasins de données canoniques et possibilité d'exécuter des requêtes, de préférence
en recourant aux visualisations. Bien entendu, ces fonctionnalités doivent exister pour les
référentiels de Big Data et ceux qui combinent toutes formes de données.
Toutefois, les analystes devront faire face à d'autres problèmes propres au Big Data. Comme nous
l'avons mentionné plus haut, les données du Big Data sont souvent désordonnées et bruitées.
L'apprentissage automatique est requis pour démasquer les signaux, mais ces techniques sont
souvent difficiles à utiliser. La meilleure technologie d'intégration du Big Data doit offrir
une expérience guidée dans laquelle un système d'apprentissage automatique propose
des suggestions avant d'être orienté dans la bonne direction par les analystes. Cette
approche guidée est indispensable dans la mesure où il existe une multitude de techniques
d'apprentissage automatique et d'analytique avancée pour autant de types de données
différents. Le système d'apprentissage employé pour créer des modèles prédictifs de données
de diffusion est très différent de celui qui sert à catégoriser du texte non structuré.
Lorsqu'un analyste a créé un ensemble de données nettoyé et pertinent, ces données
peuvent être partagées et réutilisées de manière à démultiplier la valeur de ce travail. À
l'heure actuelle, de nouveaux environnements favorisant le partage et la collaboration voient
le jour. Certains prennent en charge le mélange structuré du Big Data à la source, de façon
à faciliter l'utilisation du Big Data et d'en optimiser le stockage. Dans l'idéal, la technologie
d'intégration du Big Data doit prendre en charge de tels environnements.
Guide d’achat sur l’intégration du Big Data
6
CITO Research
Advancing the craft of technology leadership
Architecture technologique privilégiée
La technologie idéale
d'intégration du Big
Data doit réduire
la complexité, se
montrer pérenne
en proposant des
abstractions et inviter
le plus grand nombre
d'individus et de
systèmes à exploiter
les données.
Le système idéal d'intégration du Big Data varie pour chaque entreprise. Les entreprises qui
traitent de gros volumes de données nécessiteront probablement toutes les fonctionnalités
mentionnées. La plupart n'auront besoin que de certaines d'entre elles pour commencer,
puis elles en ajouteront au fil du temps.
Le meilleur moyen d'obtenir les capacités d'intégration du Big Data est d'acquérir un
nombre minimal de systèmes dotés des fonctions requises. La majorité des fonctionnalités
énumérées sont plus performantes lorsqu'elles sont conçues pour fonctionner ensemble.
Il est une autre certitude dans le monde de l'analyse de données : le changement est au
coin de la rue. La technologie idéale vous isolera au maximum des changements. Il incombe
au fournisseur non seulement de créer des abstractions puissantes et simples à utiliser, mais
également de faire en sorte qu'elles s'inscrivent dans la durée. L'évolution des technologies
du Big Data ne devrait pas être votre problème. Pas plus que la restructuration inévitable qui
surviendra lorsque divers types de technologies et de fournisseurs disparaîtront. Cela peut
s'apparenter à une sorte d'immobilisme. Mais après tout, n'est-il pas préférable de jeter son
dévolu sur un niveau d'abstraction le plus élevé possible ?
En optant pour une technologie simple d'utilisation, il est possible d'éviter le goulot
d'étranglement généré par un manque de compétences. Dans un environnement
simplifié, un plus grand nombre d'individus peut interagir directement avec les données, ce
qui donnera lieu à davantage de découvertes et de solutions autocréées.
Un des principaux facteurs financiers à prendre en compte dans le choix de la
technologie idoine, c'est le modèle de licence. Selon le mode de déploiement de vos
logiciels et les compétences internes de votre personnel en termes de maintenance logicielle,
le coût d'achat des diverses fonctionnalités peut varier énormément. Il est important de
comprendre les avantages et les inconvénients des licences traditionnelles, du logiciel Open
source et des différentes offres hybrides.
Enfin, les meilleurs systèmes d'intégration du Big Data doivent être conçus pour être intégrés
à d'autres environnements. Les formes simplifiées de transformation doivent pouvoir être
orientées vers des sources de Big Data ou vers des référentiels SQL, et être exploitables
depuis MapReduce ou toute application. Les visualisations doivent être affichables dans un
navigateur Web ou dans les applications, et ainsi de suite.
Guide d’achat sur l’intégration du Big Data
7
CITO Research
Advancing the craft of technology leadership
Les fruits d'une intégration réussie
du Big Data
Les données ne sont d'aucune utilité si aucun être humain ne peut en tirer parti ou si elles ne
sont pas exploitées dans un système automatisé conçu par des êtres humains. L'intégration
du Big Data vise à simplifier autant que possible l'accès aux données, leur compréhension et
leur exploitation.
Les fruits d'une intégration réussie du Big Data sont les avantages issus de l'utilisation des
données. Réduction des délais, élimination des goulots d'étranglement dus au manque de
compétences et fluidité des interactions permettent aux entreprises de gagner en rapidité
et en efficacité.
En achetant des composants et des systèmes qui s'intègrent dans une vision cohérente, il est
possible de minimiser les coûts sans transiger pour autant sur les fonctionnalités requises.
Il devrait désormais être plus facile de répondre aux questions posées précédemment :
Comment faire le bon choix ? Optez pour un nombre minimal de systèmes dotés des
fonctionnalités qui répondront à vos besoins présents et futurs. Ils doivent être simples
d'utilisation et pérennes.
Comment obtenir un ensemble cohérent ? Votre vision de l'intégration du Big Data doit
intégrer les formes et les sources existantes de données dans un nouveau système prenant
en charge toutes les phases d'une chaîne d'approvisionnement de données.
CITO Research
CITO Research est une source d'informations, d'analyses, d'études et de connaissances
pour les directeurs informatiques, les directeurs de la technologie, les professionnels
des technologies de l'information et autres professionnels. CITO Research dialogue
avec son public afin de saisir les dernières tendances technologiques. Celles-ci
sont recueillies, analysées et communiquées de manière élaborée pour aider les
professionnels à résoudre des problèmes complexes liés à leur activité.
Consultez notre site Web à l'adresse http://www.citoresearch.com
Cet article a été créé par CITO Research et commandité par Pentaho.
Téléchargement