The Doppler Quarterly (日本語) 夏 2016 | Page 45
データコンシューマー
AWSベースのデータレイク
データレイクの
データの処理
メタデータ
AWS Machine Learning
Hadoop on Google Compute Engine
ダッシュボード
データレイクのデータの
保存と検索
e-コマース
ガバナンスポリシー
ETLエンジン
ルール/マッチング
エンジン
Spark
データサイエンス
Quicksight
モバイル
アプリケーション
データ統合
S3
Glacier
図 7: AWS 社がホストするデータレイクアーキテクチャー
AWS 社が提供する主なデータレイクテクノロジーとデータレイク機能は、以下のとおり
です。
運用面
• CloudFormation – AWS 社は、反復可能な方法でサービスや構成を起動するた
めの自動化された手法である、CloudFormation を提供しています。
拡張性とパフォーマンス
• IDM – AWS 社は、クラウドポートフォリオ全体をカバーする強力な ID およびアク
セス管理機能と、既存の LDAP または Active Directory インフラストラクチャと
の統合機能を提供しています。この機能により、複数のデータアクセス手法での
一貫した権限の付与が可能になります。
データアクセスとデータ検索
• S3 – S3 は、データの保存と検索のためのシンプルな API を提供する、AWS 向
けのオブジェクトストレージプラットフォームです。
• Redshift – Redshift は、大規模かつ複雑なデータセットに高速でアクセスして
分析を行う、AWS 社のエンタープライズデータウェアハウスプラットフォームです。
Redshift は、運用のオーバーヘッドを低減させる PaaS 機能です。
• EMR – Elastic MapReduce は、クエリや分析のために他のシステムに送られ
るデータのきわめてスケーラブルなバッチ処理が可能な、AWS 社が実装する
MapReduce です。
• DynamoDB – DynamoDB は、開発者が自身をサポートするハイレベルなデー
タ整合性を備えた、強力で応答性の高いアプリケーションを作成できる、低レイ
テンシのフルマネージド型 NoSQL プラットフォームです。
2016年夏号 | THE DOPPLER | 43