The Doppler Quarterly (日本語) 夏 2017 | Page 18

りません。そのため、すべてのデータレイクインフラストラクチャ ときに使用するすべての手法をメタデータの作成要件に従わ とツールにデータガバナンスの遵守に関する要件を組み込む せ、新規データの取り込みのルーチンでメタデータの作成要件 必要があるかどうかを予測することがより効果的なアプローチ を適用する方法を指定する必要があります。 となります。 メタデータをカタログ化して検索できるよ うにする メタデータの作成を自動化する - クラウド上のほぼすべて の要素と同じように、自動化は整合性と正確性を確保するうえ での重要なポイントとなります。メタデータの作成を自動化す るための設計は、可能な限り資料に記載されているものを使用 します。 主な留意事項 データレイクの設計には、ビジネスユーザーがレイク内にある データセットを検索したり、見つけたり、そこから情報を得たり できるようにするためにメタデータストレージ戦略を組み込む 必要があります。従来のデータウェアハウスは、リレーショナル ストレージレイヤー内に固定的かつ静的な意味のあるデータ の定義と特性を保存しますが、データレイクは、読み取り時に 柔軟にスキーマを適用できる仕組みになっています。ただしこ れは、技術およびビジネス的な意味を示すメタデータをカタロ グ化して格納するための個別のストレージレイヤーが必要にな ることを意味します。組織はメタデータレイヤーのないデータレ イクにコンテンツを蓄積するだけの場合もありますが、この方 法では、有益なデータレイクではなく管理しにくいデータスワ ンプ ( データの沼 ) が作られることになります。適切なメタデー タを確実に作成して維持するためのアプローチやソリューショ ンは数多くありますが、ここでは、覚えておくべきいくつかの重 クラウドネイティブのソリューションを優先する - 可能な限 りクラウドネイティブの自動化フレームワークを使用して、デー タレイク内のメタデータをキャプチャー、保存、取得します。 一般的にデータソース用にカタログ化されるコア属性を次の ページの表に示します。 AWS ベースのソリューションに関するアイデア AWS 社は、 S3 でデータオブジェクトが作成されたときに AWS Lambda 関数をトリガーし、 DynamoDB データベースにデー タの属性を保存する、シンプルなソリューションの一例を示し ています。このとき作成される DynamoDB ベースのデータ カタログは、ビジネスユーザーが全文検索を実行できるよう、 Elasticsearch でインデックスを作成することが可能です。 要な原則とパターンについて説明します。 AWS Glue は、データソースのカタログ化機能をサポートする メタデータの要件に従う - 適切なメタデータを確実に作成 ス予定の製品です。JSON、 CSV、 Parquet などの広く普及し なります。中核となるデータレイクレイヤーにデータを保存する う事前に作成された分類子を使用してデータソースをクロール するには、メタデータを強制的に作成することが最善の方法と 16 | THE DOPPLER | 2017 年夏号 ための自動化された一連のツールを提供する、間もなくリリー ている数多くのソースフォーマットとデータタイプに対応するよ