The Doppler Quarterly (FRANÇAIS) Printemps 2017 | Page 30
Même charge, clusters multiples
Tout comme nous devons commencer à songer à des clusters qui s'animent pour
accomplir leur calcul intensif avant de repasser en veille, nous devrions également
nous affranchir de l'habitude de ne nous intéresser qu'à des clusters uniques, et
commencer à envisager plusieurs clusters gérant des charges de travail différentes.
Si vous vous habituez aux schémas de développement, de test et de déploiement
spécifi ques associés aux clusters éphémères, l'étape naturelle suivante est de
songer à exécuter des clusters distincts pour les différents modèles de consomma-
tion ; par exemple, un ou plusieurs clusters pour l'assimilation des données, un ou
plusieurs pour les requêtes rapides et un pour les sciences des données.
Ecosystème d'outils
Nous avons signalé que la technologie privilégiée pour élaborer un lac de données
est HDFS. Si vous vous engagez avec HDFS, les options les plus courantes sont
Apache Oozie pour la gestion du workfl ow, Apache Pig pour les scripts et Apache
Hive pour les requêtes par lot et certaines requêtes interactives.
Apache Spark a gagné en popularité ces dernières années et devrait être un candi-
dat sérieux pour gérer les analyses de streaming et les charges de travail d'appren-
tissage automatique. Nous voyons également des clusters Redshift, DynamoDB et
ElasticSearch cohabiter avec l'écosystème Hadoop au sein d'un déploiement Ama-
zon Web Services. Tous les outils présentent certaines limitations. Par conséquent,
une analyse préalable minutieuse est nécessaire pour s'assurer que les fonctionnal-
ités indispensables sont prises en charge ou qu'elles apparaissent dans la feuille de
route pour une prise en charge à court terme.
Amazon Redshift
Copy depuis le
système HDFS
Connecteur
EMR-DynamoDB
Amazon Redshift
Amazon DynamoDB
Connecteurs de
données de
streaming
Source de
données JDBC
avec Spark SQL
Amazon RDS
Amazon Kinesis
Amazon EMR
Connecteur
Elasticsearch
Système de
fichiers EMR
(EMRFS)
Amazon S3
Figure|5|: Diverses technologies collaborant dans AWS
Automatisation de l'assimilation des données
Au cours de nos discussions, nous entendons souvent parler d'une préoccupation
concernant la persistance polyglotte : la complexité de l'intégration des données
back-end. Les moteurs à traitement multiple impliquent davantage de code d'as-
similation et de coûts de développement, de maintenance et de modifi cation asso-
ciés. Mais en répartissant les charges de travail sur plusieurs moteurs d'automati-
sation, nous pouvons simplifi er les structures de données dans chaque moteur. Un
28 | THE DOPPLER | PRINTEMPS 2017