The Doppler Quarterly (日本語) 夏 2016

データコンシューマー AWSベースのデータレイクデータレイクのデータの処理メタデータ AWS Machine Learning Hadoop on Google Compute Engine ダッシュボードデータレイクのデータの保存と検索 e-コマースガバナンスポリシー ETLエンジンルール/マッチングエンジン Spark データサイエンス Quicksight モバイルアプリケーションデータ統合 S3 Glacier 図 7: AWS 社がホストするデータレイクアーキテクチャー AWS 社が提供する主なデータレイクテクノロジーとデータレイク機能は、以下のとおりです。運用面 • CloudFormation – AWS 社は、反復可能な方法でサービスや構成を起動するための自動化された手法である、CloudFormation を提供しています。拡張性とパフォーマンス • IDM – AWS 社は、クラウドポートフォリオ全体をカバーする強力な ID およびアクセス管理機能と、既存の LDAP または Active Directory インフラストラクチャとの統合機能を提供しています。この機能により、複数のデータアクセス手法での一貫した権限の付与が可能になります。データアクセスとデータ検索 • S3 – S3 は、データの保存と検索のためのシンプルな API を提供する、AWS 向けのオブジェクトストレージプラットフォームです。 • Redshift – Redshift は、大規模かつ複雑なデータセットに高速でアクセスして分析を行う、AWS 社のエンタープライズデータウェアハウスプラットフォームです。 Redshift は、運用のオーバーヘッドを低減させる PaaS 機能です。 • EMR – Elastic MapReduce は、クエリや分析のために他のシステムに送られるデータのきわめてスケーラブルなバッチ処理が可能な、AWS 社が実装する MapReduce です。 • DynamoDB – DynamoDB は、開発者が自身をサポートするハイレベルなデータ整合性を備えた、強力で応答性の高いアプリケーションを作成できる、低レイテンシのフルマネージド型 NoSQL プラットフォームです。 2016年夏号 | THE DOPPLER | 43

The Doppler Quarterly (日本語) 夏 2016 | Page 45