The Doppler Quarterly (日本語) 夏 2017 | Page 20

Amazon S3 Amazon Cognito Amazon DynamoDB Amazon S3 ( データレイクコンソール ) データレイクの CLI (RESTful API にアクセス ) Amazon ES AWS Lambda ( カスタムオーソライザー ) Amazon API Gateway ( データレイクの RESTful API) AWS Lambda ( データレイクの マイクロサービス ) Amazon CloudWatch Logs IAM ロール 図 3: AWS 社が提案するデータレイクのメタ データストレージのアーキテクチャー し、データカタログを作成することが可能な AWS Glue は、多 るよう、処理済みのデータを含む複数のレイヤーを作成する必 くの企業での実装が期待される有望なソリューションです。 要があります。これらが前述の構造化されたストレージの例と Cloud Technology Partners では、データカタログの作成を データレイク環境の主要な要件とするようお客様にお勧めして います。 なるわけですが、このような構造化されたデータストアを作成 する際に必要となる一般的な処理としては、以下のようなもの があります。 • 複数のデータセットの統合 レイクへのアクセスとレイクのマイニング • デノーマル スキーマオンリード • 演算済みのデータフィールドの抽出 「スキーマオンライト」は、データが「構造化された」リレーショ ナルデータベースに保存される前にデータのクレンジング、変 換、およびデータへの論理スキーマの追加を行う試験済みの パターンですが、データレイクは前述のとおり、プライマリデー タストアが事前に決定したスキーマに縛られないようにする 「ス キーマオンリード」のまったく異なるパターンで構築されます。 データはそのままのフォーマットか軽く処理しただけのフォー マットで保存されるため、分析に使用するときに適切なものと なるよう、各分析ツールでデータセットにビジネス的な意味を 与えることができます。このアプローチには、各種ツールから データにアクセスしてさまざまな目的に使用できるなど、数多く のメリットがあります。 データ処理 レイク内に変更不可能なデータを含むそのままの状態のレイ ヤーが置かれたら、組織のさまざまなユースケースに対応でき 18 | THE DOPPLER | 2017 年夏号 • クレンジング、重複排除、ハウスホールド Apache Spark は、 raw データのレイヤーを処理して付加価 値のあるさまざまな構造化データのレイヤーを作成するための ツールとして最も広く活用されています。 データウェアハウス ( ハイパフォーマンスなデータウェアハウスなど ) 一部の特殊 なユースケースでは、数ペタバイトのデータに対して SQL クエ リを実行し、非常に短時間で複雑な分析結果を返さなければ ならないことがあります。またこのようなケースでは、レイクの データの一部を列指向ストアのプラットフォームに取り込むこと が必要になる場合があります。こうした処理を行うためのツー ル として は、 Google BigQuery、 Amazon Redshift、 Azure SQL Data Warehouse などがあります。