The Doppler Quarterly (日本語) 秋 2017 - Page 30

Apache Ranger の 一 元 的セキュリティと監 査フ レームワーク • データをパーティション化して表のスキャンを回避する • 基盤となるストレージファイル形式として ORC を使用する Apache Ranger が提供する一元的なセキュリティフレーム このセクションでは Tez についてより詳しく説明し、 Hive でク ワークにより、 Hadoop、 Hive、 HBaseなどの関連コンポーネン エリパフォーマンスを大幅に向上できるパフォーマンスのコツ トに対する粒度の高いアクセス制御を実現できます。ユーザー をさらに 3 つ紹介します。その 3 つのコツとは、ベクトル化した は Apache Ranger 管理コンソールを使用して、特定のユー クエリの実行、コストベースの最適化、ロングライブアンドプロ ザーのセットやグループに対して、 Hive データベース、表、列へ セス (LLAP) です。 のアクセスを制御するポリシーを管理できます。環境のより高 Apache Hive on Tez 度な制御に向けて、 Apache Ranger では監査証跡とポリシー 分析も利用できます。 「Tez」はウルドゥー語で速い、滑らか、賢いなどを意味しま す。Apache Tez は、 「MapReduce」の世界では不可能だっ Apache Ranger のポリシー制御は、主に以下の 2 つの部分から た 1 秒未満のクエリパフォーマンスを可能にすることで、 Hive 成ります。 • ポリシーが適用されるリソースの詳細 (Hive データベース、 表、列など ) • ユーザー/ グループ、アクセスタイプ、カスタムコンディショ ンなど、アクセスが許可される状況の詳細 の実行の価値観を一新しました。Hive の実行では引き続き MapReduce がサポートされますが、 Hadoop で Hive ジョブ を実行する場合、現在では Tez がデフォルトのエンジンです。 前述のように、 Tez は効率の悪いシャッフルや短絡を避け、よ り効率的なマップ側の結合を活用することで、ディスクの IO を 回避します。典型的な実行パターンでは、データが実行グラフ Hive パフォーマンスの最適化 のノードからノードへ流れ (Apache Spark と同様に、 Tez は 計算を有向非巡回グラフとして表します )、レデューサーの中間 ここまでに、 Apache Hive のパフォーマンスを最適化するため に慎重に考慮する必要がある、 Apache Hive の実装における 3 つの重要な要素を紹介しました。 • EMR クラスターに Tez をインストールし、 Hive の実行エン ジンとして使用する データはディスクに書き込まれることなく次のレデューサーに 渡されます。その結果、 Apache Tez ではより多くのメモリを使 用でき (HiveServer のヒープサイズ )、メモリのパラメータを 調整できます。例えば、ベストプラクティスの 1 つは Tez コンテ ナーのサイズを YARN コンテナーのサイズの倍数に設定する ことです。Tezのパフォーマンスについては、多くの議論やガイ 企業の レガシー システム セキュリティ管理者 ポリシーの定義 ユーザーアクティビティの監査 企業の ディレクトリ サービス ユーザー の同期 Ranger ユーザー 同期サーバー ユーザー kd#9'¸x8klyd"xy!x88x*z*/Yx8k8j¸ਸB/ ykx8୸x88j8¸ਸz*,ycjਸŒHT M9nm9c¸xkd#9'’8x88’]H8x88’\H8x88’ۛ8x88”ܛH8x88¹¸x8ਂਸ¸k/ykff \XH[\8kਸ8xx