The Doppler Quarterly (FRANÇAIS) Printemps 2017

Même charge, clusters multiples Tout comme nous devons commencer à songer à des clusters qui s'animent pour accomplir leur calcul intensif avant de repasser en veille, nous devrions également nous affranchir de l'habitude de ne nous intéresser qu'à des clusters uniques, et commencer à envisager plusieurs clusters gérant des charges de travail différentes. Si vous vous habituez aux schémas de développement, de test et de déploiement spécifi ques associés aux clusters éphémères, l'étape naturelle suivante est de songer à exécuter des clusters distincts pour les différents modèles de consomma- tion ; par exemple, un ou plusieurs clusters pour l'assimilation des données, un ou plusieurs pour les requêtes rapides et un pour les sciences des données. Ecosystème d'outils Nous avons signalé que la technologie privilégiée pour élaborer un lac de données est HDFS. Si vous vous engagez avec HDFS, les options les plus courantes sont Apache Oozie pour la gestion du workfl ow, Apache Pig pour les scripts et Apache Hive pour les requêtes par lot et certaines requêtes interactives. Apache Spark a gagné en popularité ces dernières années et devrait être un candi- dat sérieux pour gérer les analyses de streaming et les charges de travail d'appren- tissage automatique. Nous voyons également des clusters Redshift, DynamoDB et ElasticSearch cohabiter avec l'écosystème Hadoop au sein d'un déploiement Ama- zon Web Services. Tous les outils présentent certaines limitations. Par conséquent, une analyse préalable minutieuse est nécessaire pour s'assurer que les fonctionnal- ités indispensables sont prises en charge ou qu'elles apparaissent dans la feuille de route pour une prise en charge à court terme. Amazon Redshift Copy depuis le système HDFS Connecteur EMR-DynamoDB Amazon Redshift Amazon DynamoDB Connecteurs de données de streaming Source de données JDBC avec Spark SQL Amazon RDS Amazon Kinesis Amazon EMR Connecteur Elasticsearch Système de fichiers EMR (EMRFS) Amazon S3 Figure|5|: Diverses technologies collaborant dans AWS Automatisation de l'assimilation des données Au cours de nos discussions, nous entendons souvent parler d'une préoccupation concernant la persistance polyglotte : la complexité de l'intégration des données back-end. Les moteurs à traitement multiple impliquent davantage de code d'as- similation et de coûts de développement, de maintenance et de modifi cation asso- ciés. Mais en répartissant les charges de travail sur plusieurs moteurs d'automati- sation, nous pouvons simplifi er les structures de données dans chaque moteur. Un 28 | THE DOPPLER | PRINTEMPS 2017

The Doppler Quarterly (FRANÇAIS) Printemps 2017 | Page 30