The Doppler Quarterly (日本語) 夏 2017 | Page 17
マット (ORC か Parquet かなど ) が異なる、同じデータセット
の複数のコピーを作成するのが最適です。
アクセス制御 - これに関しては、認証 ( 誰なのか ) と許可 ( 何
をすることが許可されているのか ) に重点が置かれます。ほぼ
すべての企業はすでに、 Active Directory などの標準的な認
セキュリティの設計 証およびユーザーディレクトリテクノロジーを導入しており、主
すべてのクラウドベースの環境と同じように、エンタープライズ ラクチャとクラウドプロバイダーが提供するリソースやサービ
データレイクのセキュリティはきわめて優先度が高く、基礎か
ら設計する必要があります。さらに、全社的なセキュリティイ
ンフラストラクチャとセキュリティ制御のフレームワークの中で
データレイクのセキュリティを導入して管理した場合にのみ、セ
キュリティで成功を収めることができます。データレイク環境に
関連するセキュリティの主な領域としては、大まかに以下の 3 つ
が挙げられます。
• 暗号化
• ネットワークレベルのセキュリティ
• アクセス制御
暗号化 - ほぼすべてのエンタープライズレベルの組織は、例
外なくとは言わないまでも、少なくとも公開されているデータ
以外の大部分の分類のデータに関して、保存データを暗号化
する必要がありますが、主要なサービスプロバイダーはいずれ
も、デフォルトかオプションで (AWS S3 などの ) 主なオブジェ
クトストアテクノロジーの暗号化をサポートしています。また
一般的に、消費のための派生的なデータストアなど、他のスト
レージレイヤーで使用するテクノロジーでも暗号化が提供され
ます。
暗号キーの管理も重要な留意事項であり、一般的には全社的
なセキュリティ制御によって要件が決まります。暗号キーの選
択肢としては、クラウドプロバイダーが作成して管理するキー、
お客様が作成してクラウドプロバイダーが管理するキー、そし
てお客様がオンプレミスですべてを作成して管理するキーがあ
ります。
これに関連する最後の留意事項は、送信中データの暗号化で
す。これにより、ネットワークを介してデバイスやサービス間を
移動するデータが保護されますが、ほとんどの場合、こうした
暗号化は各サービスの組み込みのオプションを使用するか、標
準的な TLS/SSL とそれに関連する証明書によって簡単に構
成できます。
要なクラウドプロバイダーはいずれも、企業の ID インフラスト
スのパーミッションインフラストラクチャをマッピングするため
の手法をサポートしています。これに関連する配管は複雑にな
る可能性がある一方、 (AWS 上の IAM などの ) クラウドプロバ
イダーのアクセス管理に関連するロールは認証されたユーザー
が引き受けることができるため、許可された操作に対するきめ
細かいパーミッションの制御が可能になります。これについて
は通常、レポートツールや BI ツールなどのクラウドで実行さ
れるサードパーティの製品にも同じことが言えます。LDAP と
Active Directory は一般的に認証に対応しており、ツール内
部の許可とロールは、認証されたユーザーの ID と関連付けた
り、それらの ID によって決定したりできます。
ガバナンスの確立
一般的に、データガバナンスは企業で使用されるデータの可用
性、ユーザビリティ、整合性、およびセキュリティを総合的に管
理することを指し、ビジネスポリシーと技術的な手法に依存し
ます。また、ここで示すクラウド環境のその他の要素と同じよう
に、エンタープライズデータレイクのデータガバナンスは、組織
全体にわたる手法やポリシーをベースとし、それらと一致して
いなければなりません。
従来のデータウェアハウスインフラストラクチャでは、一般的に
ビジネスデータに合わせて、事業部門またはシステム機能ごと
のサイロで個別にデータベースのコンテンツを制御しますが、
組織のデータを一元化することでもたらされるメリットを得る
には、データガバナンスのビューも一元化する必要があります。
データガバナンスの手法に関して企業 が完全に成熟していな
かったとしても、重要なメタデータ ( 「データに関するデータ」)
を定義およびキャプチャーしなければレイクにデータを保存で
きないよう、最低限の制御を適用することがきわめて重要で
す。これはある程度、前述の
「物理ストレージの設計」
のセクショ
ンで説明したメタデータインフラストラクチャの技術的実装に
左右されますが、データガバナンスは、ビジネスプロセスにお
ネットワークレベルのセキュリティ - もう 1 つの重要なセ いて必要となる重要なメタデータを決定することも意味します。
クACL や CIDR ブロックの制限をはじめとする従来の手法だ 連するデータ品質の要件も、基本的にはビジネスポリシーに関
キュリティレイヤーはネットワークレベルにあります。ネットワー
けでなく、セキュリティグループなどのクラウドネイティブの構
成要素もすべて、ネットワークレベルで広範囲に及ぶ不適切な
アクセスパスから環境を保護することにより、確固たる「高度
な保護」戦略の実行に関与します。このような戦略も全社的な
セキュリティフレームワークに沿って実行する必要があります。
また同様に、完全性、正確性、整合性、標準化などの概念に関
する決定事項として最初に確定してから、実際にそれらの要件
に従う技術システムおよびプロセスに結果を反映しなければな
りません。
データレイク環境でデータガバナンスのポリシーを実行する際
に使用するテクノロジーは通常、個別の製品やサービスではあ
2017 年夏号 | THE DOPPLER | 15