The Doppler Quarterly (日本語) 夏 2017 | Page 18
りません。そのため、すべてのデータレイクインフラストラクチャ ときに使用するすべての手法をメタデータの作成要件に従わ
とツールにデータガバナンスの遵守に関する要件を組み込む せ、新規データの取り込みのルーチンでメタデータの作成要件
必要があるかどうかを予測することがより効果的なアプローチ を適用する方法を指定する必要があります。
となります。
メタデータをカタログ化して検索できるよ
うにする
メタデータの作成を自動化する - クラウド上のほぼすべて
の要素と同じように、自動化は整合性と正確性を確保するうえ
での重要なポイントとなります。メタデータの作成を自動化す
るための設計は、可能な限り資料に記載されているものを使用
します。
主な留意事項
データレイクの設計には、ビジネスユーザーがレイク内にある
データセットを検索したり、見つけたり、そこから情報を得たり
できるようにするためにメタデータストレージ戦略を組み込む
必要があります。従来のデータウェアハウスは、リレーショナル
ストレージレイヤー内に固定的かつ静的な意味のあるデータ
の定義と特性を保存しますが、データレイクは、読み取り時に
柔軟にスキーマを適用できる仕組みになっています。ただしこ
れは、技術およびビジネス的な意味を示すメタデータをカタロ
グ化して格納するための個別のストレージレイヤーが必要にな
ることを意味します。組織はメタデータレイヤーのないデータレ
イクにコンテンツを蓄積するだけの場合もありますが、この方
法では、有益なデータレイクではなく管理しにくいデータスワ
ンプ ( データの沼 ) が作られることになります。適切なメタデー
タを確実に作成して維持するためのアプローチやソリューショ
ンは数多くありますが、ここでは、覚えておくべきいくつかの重
クラウドネイティブのソリューションを優先する - 可能な限
りクラウドネイティブの自動化フレームワークを使用して、デー
タレイク内のメタデータをキャプチャー、保存、取得します。
一般的にデータソース用にカタログ化されるコア属性を次の
ページの表に示します。
AWS ベースのソリューションに関するアイデア
AWS 社は、 S3 でデータオブジェクトが作成されたときに AWS
Lambda 関数をトリガーし、 DynamoDB データベースにデー
タの属性を保存する、シンプルなソリューションの一例を示し
ています。このとき作成される DynamoDB ベースのデータ
カタログは、ビジネスユーザーが全文検索を実行できるよう、
Elasticsearch でインデックスを作成することが可能です。
要な原則とパターンについて説明します。 AWS Glue は、データソースのカタログ化機能をサポートする
メタデータの要件に従う - 適切なメタデータを確実に作成 ス予定の製品です。JSON、 CSV、 Parquet などの広く普及し
なります。中核となるデータレイクレイヤーにデータを保存する う事前に作成された分類子を使用してデータソースをクロール
するには、メタデータを強制的に作成することが最善の方法と
16 | THE DOPPLER | 2017 年夏号
ための自動化された一連のツールを提供する、間もなくリリー
ている数多くのソースフォーマットとデータタイプに対応するよ