The Doppler Quarterly (日本語) 夏 2017 | Page 16
Consumption
消費
導出/計算の追加
Derivations
/ Calculations Added
メタストアの追加
Metastore
Added
Raw Layer
そのままの状態のレイヤー
ほぼ整理された形式のデータ
• Data
in nearly organized form
• 変換なし
No transformations
図 2: 分割されたオブジェクトストレージと Hive のクラスター化
レイヤーの追加に関する具体例としては、 Hive のメタストアが きます。すべてのファイルは、クラスターの NameNode のメモ
挙げられますが、このようなレイヤーでは、図 2 に示すように、 リにオブジェクトとして表され、それぞれが約 150 バイトを占
アクセスパターンを強化するためにオブジェクトストアのファイ 有するため、それぞれが 1 つのブロックを使用する1 億個のファ
ルが「複数のディレクトリ」
に分割され、その中に Hive でクラス イルを保存した場合、約 30 ギガバイトのメモリが使用される
ター化されたファイルが配置されます。 ことになります。ここで重要となるポイントは、 Hadoop エコシ
この一例に関して他にも説明できることは数多くありますが、こ
こでは希望する消費パターンに応じてレイヤーを追加すること
が可能なアプローチが多数あると言うにとどめておきます。
ファイルフォーマットの選択
はじめに
多くの場合、従来の RDBMS 環境から移行してきたユーザー
は、 Cloud Technology Partners がデータレイクの設計者と
してデータの保存方法を非常にきめ細かく厳密に制御してい
ることに驚きます。RDBMS のストレージエンジンとは対照的
に、当社ではファイルサイズ、ストレージの種類 ( 行指向と列指
向 )、圧縮比、インデックス、スキーマ、ブロックサイズといった
多数の要素を決定していますが、これらは、一般的にレイク内
のデータにアクセスするために使用するツールを含む Hadoop
を中心としたエコシステムに関連しています。
ステムのツールが小さいファイルに効率的にアクセスできるよう
に最適化されておらず、主に大きいファイル (一般的にはブロッ
クサイズの偶数倍 ) に合わせた設計となっていることです。
Apache ORC
ORC は、 Hadoop のワークロード向けに設計された有名な列
指向のファイルフォーマットです。このファイルフォーマットによ
り、現在のクエリに必要な値だけを読み取って展開し、処理す
ることが可能になります。現在提供されている列指向のファイ
ルフォーマットは複数ありますが、大規模な Hadoop のユー
ザーの多くは ORC を導入しており、たとえば、 Facebook 社は
ORC を使用して数十ペタバイトのデータを自社のデータウェア
ハウスに保存していま� g�����B3�������I��W�
��
����
�A���Օ�+����S���_��=I����/���
+�~��f�ZO�����B���7�
/����������g�+�O����[���
��e�����������=I��
K����R��_���r��V����
��
K��w��`+�_���?���/���g�ώ�{��
���C�zs�
K������_������g�+�B3�c���
�����V��W�
���{�� +�W�
��
����
��
胎�
/�����{���
�#����
㚞/�����W�
��
����W�
���{��#�3�&疺k��+�W�
��
����
��
����!����ÎW�
��
����
ߎ
�����!L������W�
������
�����'���r������
/���Z��"�������
�����'���������|+���#���[����
��
��
耠���5���
#�
+���
/�/����?�W�?��O���
#���+��?�W��W�
��
����
K��w��c�g�
/��ӖB#����
����
��
������
��s������+���3���������
/�O���
K��#�
/����v{������k�?���W�
��
����
K��w��c��(�Ё��Q!�=AA1H������܃��Ӗ�?�>�+�?���W��������>��������6�"����
+���g��
�#����
���
ώ
� +�3��;���ӖB#��O���
#����*ۚ��������jo�����O�
7��~�n������
/�
� +����
����/������G���
��
ߎ��ώ�W�
������������W�
��
����W�
���