The Doppler Quarterly (日本語) 夏 2017 | Page 20
Amazon S3
Amazon Cognito
Amazon DynamoDB
Amazon S3
( データレイクコンソール )
データレイクの CLI
(RESTful API にアクセス )
Amazon ES
AWS Lambda
( カスタムオーソライザー )
Amazon
API Gateway
( データレイクの
RESTful API)
AWS Lambda
( データレイクの
マイクロサービス )
Amazon
CloudWatch Logs
IAM ロール
図 3: AWS 社が提案するデータレイクのメタ
データストレージのアーキテクチャー
し、データカタログを作成することが可能な AWS Glue は、多 るよう、処理済みのデータを含む複数のレイヤーを作成する必
くの企業での実装が期待される有望なソリューションです。 要があります。これらが前述の構造化されたストレージの例と
Cloud Technology Partners では、データカタログの作成を
データレイク環境の主要な要件とするようお客様にお勧めして
います。
なるわけですが、このような構造化されたデータストアを作成
する際に必要となる一般的な処理としては、以下のようなもの
があります。
• 複数のデータセットの統合
レイクへのアクセスとレイクのマイニング • デノーマル
スキーマオンリード • 演算済みのデータフィールドの抽出
「スキーマオンライト」は、データが「構造化された」リレーショ
ナルデータベースに保存される前にデータのクレンジング、変
換、およびデータへの論理スキーマの追加を行う試験済みの
パターンですが、データレイクは前述のとおり、プライマリデー
タストアが事前に決定したスキーマに縛られないようにする
「ス
キーマオンリード」のまったく異なるパターンで構築されます。
データはそのままのフォーマットか軽く処理しただけのフォー
マットで保存されるため、分析に使用するときに適切なものと
なるよう、各分析ツールでデータセットにビジネス的な意味を
与えることができます。このアプローチには、各種ツールから
データにアクセスしてさまざまな目的に使用できるなど、数多く
のメリットがあります。
データ処理
レイク内に変更不可能なデータを含むそのままの状態のレイ
ヤーが置かれたら、組織のさまざまなユースケースに対応でき
18 | THE DOPPLER | 2017 年夏号
• クレンジング、重複排除、ハウスホールド
Apache Spark は、 raw データのレイヤーを処理して付加価
値のあるさまざまな構造化データのレイヤーを作成するための
ツールとして最も広く活用されています。
データウェアハウス
( ハイパフォーマンスなデータウェアハウスなど ) 一部の特殊
なユースケースでは、数ペタバイトのデータに対して SQL クエ
リを実行し、非常に短時間で複雑な分析結果を返さなければ
ならないことがあります。またこのようなケースでは、レイクの
データの一部を列指向ストアのプラットフォームに取り込むこと
が必要になる場合があります。こうした処理を行うためのツー
ル として は、 Google BigQuery、 Amazon Redshift、 Azure
SQL Data Warehouse などがあります。