1
Guide d’achat sur l’intégration du Big Data
CITO Research
Advancing the craft of technology leadership
Introduction
Le phénomène de «Big Data», autrement dit l'émergence de nouveaux types de données
dans des volumes toujours plus impressionnants, pousse les directeurs informatiques et
les dirigeants à repenser leur portefeuille technologique. Plutôt que d'élaborer leur propre
infrastructure, la plupart des entreprises préfèrent l'acheter. Mais comment faire le bon
choix? Et comment obtenir un ensemble cohérent?
La nécessité d'une nouvelle technologie représente le premier dé du Big Data. Cela ne
signie pas que tous les autres types de données et de technologies soient obsolètes.
Hadoop, les bases de données NoSQL, les bases de données analytiques et les entrepôts
de données cohabitent sans problème. Les analystes ne se soucient pas de l'origine des
données: ils les passeront à la moulinette, quelle que soit leur source.
L'intégration des données constitue le second dé. Comment faire en sorte que la nouvelle
technologie de traitement du Big Data utilise les données et les technologies existantes?
Comment améliorer les données et les technologies existantes en y ajoutant le Big Data?
Etcomment permettre aux nouvelles formes d'analytique et aux applications d'exploiter à
la fois les nouvelles et les anciennes données?
D'après CITO Research, les directeurs informatiques et les dirigeants ont tout intérêt à intégrer
le nouvel univers du Big Data avec l'ancien monde de la BI an d'accélérer le progrès. Le présent
guide d'achat vous aidera à acheter la technologie adéquate pour l'intégration du Big Data.
Les enjeux de l'intégration du Big Data:
hier et aujourd'hui
Les passionnés de Big Data sont conscient des diérences entre ce phénomène et les
anciennes générations de données. Elles se résument souvent en trois mots, les «3V»:
volume, variété, vitesse. Ce concept a été introduit par Doug Laney, analyste chez Gartner,
pour décrire le phénomène Big Data.
La diculté consiste à trouver un référentiel capable de traiter d'énormes volumes de données.
L'analyse de ux de données issues de machines, de serveurs et d'appareils mobiles, parfois
appelé « Internet des objets », est problématique. L'écosystème Hadoop a été conçu pour
traiter le volume et la variété de ces données, mais de nombreux produits tels que Splunk sont
également en mesure d'absorber de grandes quantités de Big Data orienté machine.
De plus, les données générées automatiquement exigent souvent de nouvelles techniques
d'exploration et d'analyse, ce qui représente un dé supplémentaire. La majeure partie du
Big Data est non structurée. Par ailleurs, des documents en texte brut et des vidéos s'ajoutent
aux types de données. L'apprentissage automatique, l'analyse de textes ou de vidéos et une
multitude d'autres techniques, appliquées aux données dans Hadoop ou dans des bases de
données NoSQL et analytiques permettent de donner du sens à des données désordonnées.
Une fois ces dés relevés, les tâches liées à l'utilisation du Big Data ressemblent étrangement
à celles qui concernaient les données existantes (voir «Dés communs au Big Data et aux
données existantes»).