The Doppler Quarterly (日本語) 夏 2017 | Page 17

マット (ORC か Parquet かなど ) が異なる、同じデータセット の複数のコピーを作成するのが最適です。 アクセス制御 - これに関しては、認証 ( 誰なのか ) と許可 ( 何 をすることが許可されているのか ) に重点が置かれます。ほぼ すべての企業はすでに、 Active Directory などの標準的な認 セキュリティの設計 証およびユーザーディレクトリテクノロジーを導入しており、主 すべてのクラウドベースの環境と同じように、エンタープライズ ラクチャとクラウドプロバイダーが提供するリソースやサービ データレイクのセキュリティはきわめて優先度が高く、基礎か ら設計する必要があります。さらに、全社的なセキュリティイ ンフラストラクチャとセキュリティ制御のフレームワークの中で データレイクのセキュリティを導入して管理した場合にのみ、セ キュリティで成功を収めることができます。データレイク環境に 関連するセキュリティの主な領域としては、大まかに以下の 3 つ が挙げられます。 • 暗号化 • ネットワークレベルのセキュリティ • アクセス制御 暗号化 - ほぼすべてのエンタープライズレベルの組織は、例 外なくとは言わないまでも、少なくとも公開されているデータ 以外の大部分の分類のデータに関して、保存データを暗号化 する必要がありますが、主要なサービスプロバイダーはいずれ も、デフォルトかオプションで (AWS S3 などの ) 主なオブジェ クトストアテクノロジーの暗号化をサポートしています。また 一般的に、消費のための派生的なデータストアなど、他のスト レージレイヤーで使用するテクノロジーでも暗号化が提供され ます。 暗号キーの管理も重要な留意事項であり、一般的には全社的 なセキュリティ制御によって要件が決まります。暗号キーの選 択肢としては、クラウドプロバイダーが作成して管理するキー、 お客様が作成してクラウドプロバイダーが管理するキー、そし てお客様がオンプレミスですべてを作成して管理するキーがあ ります。 これに関連する最後の留意事項は、送信中データの暗号化で す。これにより、ネットワークを介してデバイスやサービス間を 移動するデータが保護されますが、ほとんどの場合、こうした 暗号化は各サービスの組み込みのオプションを使用するか、標 準的な TLS/SSL とそれに関連する証明書によって簡単に構 成できます。 要なクラウドプロバイダーはいずれも、企業の ID インフラスト スのパーミッションインフラストラクチャをマッピングするため の手法をサポートしています。これに関連する配管は複雑にな る可能性がある一方、 (AWS 上の IAM などの ) クラウドプロバ イダーのアクセス管理に関連するロールは認証されたユーザー が引き受けることができるため、許可された操作に対するきめ 細かいパーミッションの制御が可能になります。これについて は通常、レポートツールや BI ツールなどのクラウドで実行さ れるサードパーティの製品にも同じことが言えます。LDAP と Active Directory は一般的に認証に対応しており、ツール内 部の許可とロールは、認証されたユーザーの ID と関連付けた り、それらの ID によって決定したりできます。 ガバナンスの確立 一般的に、データガバナンスは企業で使用されるデータの可用 性、ユーザビリティ、整合性、およびセキュリティを総合的に管 理することを指し、ビジネスポリシーと技術的な手法に依存し ます。また、ここで示すクラウド環境のその他の要素と同じよう に、エンタープライズデータレイクのデータガバナンスは、組織 全体にわたる手法やポリシーをベースとし、それらと一致して いなければなりません。 従来のデータウェアハウスインフラストラクチャでは、一般的に ビジネスデータに合わせて、事業部門またはシステム機能ごと のサイロで個別にデータベースのコンテンツを制御しますが、 組織のデータを一元化することでもたらされるメリットを得る には、データガバナンスのビューも一元化する必要があります。 データガバナンスの手法に関して企業 が完全に成熟していな かったとしても、重要なメタデータ ( 「データに関するデータ」) を定義およびキャプチャーしなければレイクにデータを保存で きないよう、最低限の制御を適用することがきわめて重要で す。これはある程度、前述の 「物理ストレージの設計」 のセクショ ンで説明したメタデータインフラストラクチャの技術的実装に 左右されますが、データガバナンスは、ビジネスプロセスにお ネットワークレベルのセキュリティ - もう 1 つの重要なセ いて必要となる重要なメタデータを決定することも意味します。 クACL や CIDR ブロックの制限をはじめとする従来の手法だ 連するデータ品質の要件も、基本的にはビジネスポリシーに関 キュリティレイヤーはネットワークレベルにあります。ネットワー けでなく、セキュリティグループなどのクラウドネイティブの構 成要素もすべて、ネットワークレベルで広範囲に及ぶ不適切な アクセスパスから環境を保護することにより、確固たる「高度 な保護」戦略の実行に関与します。このような戦略も全社的な セキュリティフレームワークに沿って実行する必要があります。 また同様に、完全性、正確性、整合性、標準化などの概念に関 する決定事項として最初に確定してから、実際にそれらの要件 に従う技術システムおよびプロセスに結果を反映しなければな りません。 データレイク環境でデータガバナンスのポリシーを実行する際 に使用するテクノロジーは通常、個別の製品やサービスではあ 2017 年夏号 | THE DOPPLER | 15