The Doppler Quarterly (日本語) 夏 2017

りません。そのため、すべてのデータレイクインフラストラクチャときに使用するすべての手法をメタデータの作成要件に従わとツールにデータガバナンスの遵守に関する要件を組み込むせ、新規データの取り込みのルーチンでメタデータの作成要件必要があるかどうかを予測することがより効果的なアプローチを適用する方法を指定する必要があります。となります。メタデータをカタログ化して検索できるようにするメタデータの作成を自動化する - クラウド上のほぼすべての要素と同じように、自動化は整合性と正確性を確保するうえでの重要なポイントとなります。メタデータの作成を自動化するための設計は、可能な限り資料に記載されているものを使用します。主な留意事項データレイクの設計には、ビジネスユーザーがレイク内にあるデータセットを検索したり、見つけたり、そこから情報を得たりできるようにするためにメタデータストレージ戦略を組み込む必要があります。従来のデータウェアハウスは、リレーショナルストレージレイヤー内に固定的かつ静的な意味のあるデータの定義と特性を保存しますが、データレイクは、読み取り時に柔軟にスキーマを適用できる仕組みになっています。ただしこれは、技術およびビジネス的な意味を示すメタデータをカタログ化して格納するための個別のストレージレイヤーが必要になることを意味します。組織はメタデータレイヤーのないデータレイクにコンテンツを蓄積するだけの場合もありますが、この方法では、有益なデータレイクではなく管理しにくいデータスワンプ ( データの沼 ) が作られることになります。適切なメタデータを確実に作成して維持するためのアプローチやソリューションは数多くありますが、ここでは、覚えておくべきいくつかの重クラウドネイティブのソリューションを優先する - 可能な限りクラウドネイティブの自動化フレームワークを使用して、データレイク内のメタデータをキャプチャー、保存、取得します。一般的にデータソース用にカタログ化されるコア属性を次のページの表に示します。 AWS ベースのソリューションに関するアイデア AWS 社は、 S3 でデータオブジェクトが作成されたときに AWS Lambda 関数をトリガーし、 DynamoDB データベースにデータの属性を保存する、シンプルなソリューションの一例を示しています。このとき作成される DynamoDB ベースのデータカタログは、ビジネスユーザーが全文検索を実行できるよう、 Elasticsearch でインデックスを作成することが可能です。要な原則とパターンについて説明します。 AWS Glue は、データソースのカタログ化機能をサポートするメタデータの要件に従う - 適切なメタデータを確実に作成ス予定の製品です。JSON、 CSV、 Parquet などの広く普及しなります。中核となるデータレイクレイヤーにデータを保存するう事前に作成された分類子を使用してデータソースをクロールするには、メタデータを強制的に作成することが最善の方法と 16 | THE DOPPLER | 2017 年夏号ための自動化された一連のツールを提供する、間もなくリリーている数多くのソースフォーマットとデータタイプに対応するよ

The Doppler Quarterly (日本語) 夏 2017 | Page 18