The Doppler Quarterly (日本語) 春 2017 - Page 30

同じロードを多数のクラスターで処理 シングルクラスターだけを考える傾向から抜け出して、異なるワークロードの稼働が可能な多 数のクラスターを検討すべきです。これは、集中コンピューティングで性能を発揮し、完了後 は待機状態に戻るクラスターの検討が必要な場合と同じ方法で行います。短期のクラスター に関連して、使い慣れた特定の開発、テスト、展開パターンがある場合、通常次に検討する のは、さまざまな消費パターンごとに個別のクラスターを稼働させることです。たとえば、デー タの取り込みや高速クエリには 1 つまたは複数のクラスターを、データ分析には 1 つのクラス ターを用意します。 ツールのエコシステム データレイクの構築には HDFS が好まれることを前述しました。HDFS の採用を決断したら、 通常、ワークフロー管理に Apache Oozie、スクリプトの実行に Apache Pig、バッチと対話 型クエリに Apache Hive を選択します。 ここ数年で普及している Apache Spark は、ストリーミング分析と機械学習のワークロードの 処理にきわめて高い性能を発揮します。Redshift、 DynamoDB、 ElasticSearch クラスター が、 Amazon Web Services の展開で Hadoop エコシステムと共存していることもあります。 すべてのツールに特定の制約があるので、必須の機能がサポートされているか、または近いう ちにロードマップでサポートされるかをあらかじめ慎重に分析する必要があります。 図 5: AWS で連携するさまざまなテクノロジー HDFS からの Amazon Redshift の コピー EMR-DynamoDB コネクター r Amazon Redshift Amazon DynamoDB JDBC のデータソースと Spark SQL ストリーミングデータ コネクター Amazon RDS Amazon Kinesis Amazon EMR Elasticsearch コネクター EMR ファイルシステム (EMRFS) Amazon S3 データ取り込みの自動化 実際の対話の中で何度も聞いた多言語の永続性に関する懸念があります。それは、バックエ ンドデータの統合が複雑になることです。複数の処理エンジンには、データを取り込むコード が多数必要で、それに関連して開発、メンテナンス、変更に費用がかかります。しか