The Doppler Quarterly (日本語) 秋 2017 - Page 27

この記事では、 Apache Hive を使用 した大規模なデータウェアハウスのビ ジネス的価値に焦点を当て、そのよう なシステムを実装するために必要な アーキテクチャーのポイント、設計お よび実装のベストプラクティスを紹介 します。 テクノロジーによってそれをクラウドで有効にします。組織に SQL の豊富な経験を積んだ強力なリソースが っている場合 は ( おそらく っているはずです !)、 Apache Hive を検討して みてください。 Apache Hive の活用 元は Facebook によって開発された Apache Hive は、人気 の高いビッグデータウェアハウスソリューションです。EMRFS (Elastic MapReduce File System) と呼 ばれる Hadoop 分 散ファイルシステム (HDFS) のような抽象化レイヤーによって、 HDFS または Amazon S3 (AWS の実装 ) に保存されたデー データウェアハウス タをクエリするための SQL インターフェイスを提供します。 データウェアハウスの時代は終わりか。それとも これから始まるのか。 EMR クラスターの Apache Hive すべての大規模組織には大量の履歴データがあり、データ 管理される Hadoopフレームワークを提供し、動的にスケール ウェアハウスやデータマートの形でリレーショナルデータベース と結び付けられています。これらのデータウェアハウスは、ビジ ネスインテリジェンスによるレポートや分析に役立ちます。組織 がクラウドでビッグデータジャーニーへと乗り出した場合、クラ ウドで同じデータウェアハウスを再構築することは賢明でない かもしれません。多くの組織は、リレーショナルデータウェアハ ウスのような非正規化構造が必要な場合、代わりにユースケー ス固有の小規模なレガシーデータウェアハウスを構築し、追加 Amazon Elastic MapReduce (EMR) は、クラスターベースで が可能な Amazon EC2 にかけて簡単で、すばやく、コスト効 率の高い大量のデータ処理を可能にします。Apache Hive は Amazon EMR クラスターで実行され、 Amazon S3 に保存さ れたデータと相互通信します。典型的な EMR クラスターには 1 つのマスターノード、 8NK^K88+>8*.888;8888*89~8+~8:~8;>88+8+8*888;888ZJ~hj888~8;8+8XniZ>KnX~Xznyn8X;8K >88+89P888*n8*~8*.8+8:8:^8;8+~8:~8;>8Y 88(888 T"8*8:8+8+8;8+8+8;>888*.8:8;08*8;8+8*~8;>88$E030898+8+8;888;88898+88>880489^8*8*N8:8+8:8;89`888;888+8:8;89`888;88898+88>88 89^8*8*N8:8+8:8;89`888;888+8:8;89`888;88898+88>8855`89^8*8*N8:Y2u2T"8*8:8+8+8;8fP#r[NzxXrDRDU"#