The Doppler Quarterly (日本語) 夏 2017

Amazon S3 Amazon Cognito Amazon DynamoDB Amazon S3 ( データレイクコンソール ) データレイクの CLI (RESTful API にアクセス ) Amazon ES AWS Lambda ( カスタムオーソライザー ) Amazon API Gateway ( データレイクの RESTful API) AWS Lambda ( データレイクのマイクロサービス ) Amazon CloudWatch Logs IAM ロール図 3: AWS 社が提案するデータレイクのメタデータストレージのアーキテクチャーし、データカタログを作成することが可能な AWS Glue は、多るよう、処理済みのデータを含む複数のレイヤーを作成する必くの企業での実装が期待される有望なソリューションです。要があります。これらが前述の構造化されたストレージの例と Cloud Technology Partners では、データカタログの作成をデータレイク環境の主要な要件とするようお客様にお勧めしています。なるわけですが、このような構造化されたデータストアを作成する際に必要となる一般的な処理としては、以下のようなものがあります。 • 複数のデータセットの統合レイクへのアクセスとレイクのマイニング • デノーマルスキーマオンリード • 演算済みのデータフィールドの抽出「スキーマオンライト」は、データが「構造化された」リレーショナルデータベースに保存される前にデータのクレンジング、変換、およびデータへの論理スキーマの追加を行う試験済みのパターンですが、データレイクは前述のとおり、プライマリデータストアが事前に決定したスキーマに縛られないようにする「スキーマオンリード」のまったく異なるパターンで構築されます。データはそのままのフォーマットか軽く処理しただけのフォーマットで保存されるため、分析に使用するときに適切なものとなるよう、各分析ツールでデータセットにビジネス的な意味を与えることができます。このアプローチには、各種ツールからデータにアクセスしてさまざまな目的に使用できるなど、数多くのメリットがあります。データ処理レイク内に変更不可能なデータを含むそのままの状態のレイヤーが置かれたら、組織のさまざまなユースケースに対応でき 18 | THE DOPPLER | 2017 年夏号 • クレンジング、重複排除、ハウスホールド Apache Spark は、 raw データのレイヤーを処理して付加価値のあるさまざまな構造化データのレイヤーを作成するためのツールとして最も広く活用されています。データウェアハウス ( ハイパフォーマンスなデータウェアハウスなど ) 一部の特殊なユースケースでは、数ペタバイトのデータに対して SQL クエリを実行し、非常に短時間で複雑な分析結果を返さなければならないことがあります。またこのようなケースでは、レイクのデータの一部を列指向ストアのプラットフォームに取り込むことが必要になる場合があります。こうした処理を行うためのツールとしては、 Google BigQuery、 Amazon Redshift、 Azure SQL Data Warehouse などがあります。

The Doppler Quarterly (日本語) 夏 2017 | Page 20