The Doppler Quarterly (日本語) 夏 2017 - Page 16

Consumption 消費 導出/計算の追加 Derivations / Calculations Added メタストアの追加 Metastore Added Raw Layer そのままの状態のレイヤー ほぼ整理された形式のデータ • Data in nearly organized form • 変換なし No transformations 図 2: 分割されたオブジェクトストレージと Hive のクラスター化 レイヤーの追加に関する具体例としては、 Hive のメタストアが きます。すべてのファイルは、クラスターの NameNode のメモ 挙げられますが、このようなレイヤーでは、図 2 に示すように、 リにオブジェクトとして表され、それぞれが約 150 バイトを占 アクセスパターンを強化するためにオブジェクトストアのファイ 有するため、それぞれが 1 つのブロックを使用する1 億個のファ ルが「複数のディレクトリ」 に分割され、その中に Hive でクラス イルを保存した場合、約 30 ギガバイトのメモリが使用される ター化されたファイルが配置されます。 ことになります。ここで重要となるポイントは、 Hadoop エコシ この一例に関して他にも説明できることは数多くありますが、こ こでは希望する消費パターンに応じてレイヤーを追加すること が可能なアプローチが多数あると言うにとどめておきます。 ファイルフォーマットの選択 はじめに 多くの場合、従来の RDBMS 環境から移行してきたユーザー は、 Cloud Technology Partners がデータレイクの設計者と してデータの保存方法を非常にきめ細かく厳密に制御してい ることに驚きます。RDBMS のストレージエンジンとは対照的 に、当社ではファイルサイズ、ストレージの種類 ( 行指向と列指 向 )、圧縮比、インデックス、スキーマ、ブロックサイズといった 多数の要素を決定していますが、これらは、一般的にレイク内 のデータにアクセスするために使用するツールを含む Hadoop を中心としたエコシステムに関連しています。 ステムのツールが小さいファイルに効率的にアクセスできるよう に最適化されておらず、主に大きいファイル (一般的にはブロッ クサイズの偶数倍 ) に合わせた設計となっていることです。 Apache ORC ORC は、 Hadoop のワークロード向けに設計された有名な列 指向のファイルフォーマットです。このファイルフォーマットによ り、現在のクエリに必要な値だけを読み取って展開し、処理す ることが可能になります。現在提供されている列指向のファイ ルフォーマットは複数ありますが、大規模な Hadoop のユー ザーの多くは ORC を導入しており、たとえば、 Facebook 社は ORC を使用して数十ペタバイトのデータを自社のデータウェア ハウスに保存していま g B3I W  AՕ+S_=I / +~f ZOB7 /Îg+O[ e=I KR_rV Kw`+_?/gώ{ Czs K_g+B3c VÎW { +W  ׎ 胎 /{ # 㚞/W W {#3&疺k+W  ׎ !ÎW  ߎ !LW  'r /Z" '|+#[ ׎ 耠5 # + //?W?O #+?WW  Kwcg /ӖB#   s+3 /O K# /v{k?W  Kwc(ЁQ!=AA1H܃Ӗ?>+?W>6" +g #  ώ  +3;ӖB#O #*ۚjoO 7~n /  + /G ߎώW W W