The Doppler Quarterly (日本語) 夏 2016 - Page 45

データコンシューマー AWSベースのデータレイク データレイクの データの処理 メタデータ AWS Machine Learning Hadoop on Google Compute Engine ダッシュボード データレイクのデータの 保存と検索 e-コマース ガバナンスポリシー ETLエンジン ルール/マッチング エンジン Spark データサイエンス Quicksight モバイル アプリケーション データ統合 S3 Glacier 図 7: AWS 社がホストするデータレイクアーキテクチャー AWS 社が提供する主なデータレイクテクノロジーとデータレイク機能は、以下のとおり です。 運用面 • CloudFormation – AWS 社は、反復可能な方法でサービスや構成を起動するた めの自動化された手法である、CloudFormation を提供しています。 拡張性とパフォーマンス • IDM – AWS 社は、クラウドポートフォリオ全体をカバーする強力な ID およびアク セス管理機能と、既存の LDAP または Active Directory インフラストラクチャと の統合機能を提供しています。この機能により、複数のデータアクセス手法での 一貫した権限の付与が可能になります。 データアクセスとデータ検索 • S3 – S3 は、データの保存と検索のためのシンプルな API を提供する、AWS 向 けのオブジェクトストレージプラットフォームです。 • Redshift – Redshift は、大規模かつ複雑なデータセットに高速でアクセスして 分析を行う、AWS 社のエンタープライズデータウェアハウスプラットフォームです。 Redshift は、運用のオーバーヘッドを低減させる PaaS 機能です。 • EMR – Elastic MapReduce は、クエリや分析のために他のシステムに送られ るデータのきわめてスケーラブルなバッチ処理が可能な、AWS 社が実装する MapReduce です。 • DynamoDB – DynamoDB は、開発者が自身をサポートするハイレベルなデー タ整合性を備えた、強力で応答性の高いアプリケーションを作成できる、低レイ テンシのフルマネージド型 NoSQL プラットフォームです。 2016年夏号 | THE DOPPLER | 43