The Doppler Quarterly (日本語) 秋 2017

ドを Web で見つけることができます。Tez を実際に使用する場合は詳細を確認し、基盤となる概念を理解し、実際のデー長期間稼動するプロセスデーモン (LLAP) タで実験することをお勧めします。パフォーマンスへの需要が高まり、 Tez やコストベースの最ベクトル化したクエリの実行れたため、 Hive のパフォーマンスはますます高くなっていま Hive のデフォルトのクエリ実行エンジンでは、 1 度に 1 行ずつ処理されます。これにはネストされたループ内で複数レイヤーの仮想メソッド呼び出しが要求されるため、 CPU の観点から見てとても非効率的です。ベクトル化したクエリの実行は、 1024 行を一括で読み込み、個々のレコードではなくレコードのコレクション全体に操作を適用することで、このような非効率性を排除することを目的とした Hive の機能です。このベクトルモードの実行は、スキャン、フィルター適用、集約、結合などの一般的なクエリ操作において速度を桁違いに向上できることが証明されています。ベクトル化したクエリの実行を使用するには、データを ORC に保存し、 format.hive.vectorized.exe- cution.enabled のプロパティを true に設定し、 ORC 形式の表に対してクエリを実行します。EMR クラスターでのベクトル化したクエリの実行は、現在デフォルトでは有効でないため、 Hive でこの機能を手動で有効化する必要があります。コストベースの最適化 Apache Hive でのコストベースの最適化 (CBO) の考え方は、リレーショナルデータベースの世界での考え方と非常に似ています。表またはパーティションの中の行数、特定の対象列のヒストグラムなどの統計を収集し (これは、クエリ最適化のコスト関数のインプットとして機能します )、 CBO が異なるクエリの実行プランを比較して最も「コスト」が低いプランを選択できるようにします。長期的な実行プランを実行するよりも、単に保存された統計をクエリすることで、クエリに対する回答が非常に速く適化などのさまざまなソリューションコンポーネントが追加さす。HDFS DataNode による直接相互通信に代わる長期間のデーモンである LLAP は、特に列チャンクのプリフェッチングとキャッシングによって HIVE を成熟の次の段階へと進めようとしています。LLAP デーモンはクラスターのワーカーノードで実行され、 I/O、キャッシング、クエリの断片的実行を処理します。実行全体は既存の Hive 実行エンジン (Tez など ) によって計画および監視されます。LLAP デーモンによって実行された作業の結果は、クエリに応じて、 Hive クエリの結果の一部を構成するか、または外部の Hive タスクに渡されます。多くの環境でとなる要件は、列レベルの粒度の高いアクセス制御です。LLAP デーモンが別のアプリケーションによって使用でき、デーモンが任意の API を通じてオープンであることを考えると、 LLAP を使用する別のデータ処理フレームワークに対しても粒度の高いアクセス制御を実装することが推奨されます。これについての最適な例は、 LLAP を使用して Apache Hive の SQL DataFrame である Apache Spark にデータをロードする機能です。Apache Ranger を使用することで、 Apache Spark のみでは不可能な行 / 列レベルの粒度の高いアクセス制御を実現できます。結論 Apache Hive はここ数年で劇的に成熟し、企業の大規模データウェアハウスのニーズをサポートできるプラットフォームに成長しました。以前は、迅速な応答時間を必要とするクエリワー得られる場合があります。クロードに対して Hive は適していませんでした。しかし現在、 Hive の CBO エンジンは、 Hive Metastore の統計を使用してとで、 1 秒未満の応答時間を実現できます。現代の企業にとっ最適なクエリプランを作成します。最適化に使用される統計には 2 つのタイプがあります。表のステータス ( 圧縮前の表のサイズ、行数、データを保存するために使用されているファイル数など ) と列の統計です。適切に調整した Apache Hive on Tez に LLAP を実装するこて、ユースケース駆動型の、適切に設計された Apache Hive ベースのデータウェアハウスソリューションは真剣に検討するに値すると言えるでしょう。 CBO の欠点は、コストベースの最適化エンジンを効果的にするためには、表に関する正確な統計を収集および保持する必要があることです。残念なことに、表統計の収集はコストのかかる操作です。しかし、 1 度完了すれば、その表に関するその後のすべてのクエリは収集した統計の恩恵を受けることができます。 2017 年秋号 | THE DOPPLER | 29

The Doppler Quarterly (日本語) 秋 2017 | Page 31