The Doppler Quarterly (日本語) 夏 2016 - Page 42

データレイクを構築するときは、さまざまなデータセットへのアクセスを提供するために 連携する複雑なテクノロジーを統合します。すべてのデータレイク環境に含める必要が ある、重要な機能領域は以下のとおりです。 データ処理 – 自動化された信頼性の高い方法で他のシステムにシームレスに接続して データの明確なマッピングを提供し、さまざまな場所にデータを移動させるためのデー タレイクの機能です。 • ストリーミング – 移動中のデータを分析し、それに基づいて意思決定を行うため の機能です。 • ルール/ マッチング - 匿名化や重複排除といった操作のためにデータに対するパ ターンマッチングを実行する機能です。 • ETL – 抽出 / 変換 / ロードエンジンは、既存の RDBMS および EDW プラット フォームへの統合で重要な役割を果たします。 • ガバナンス - コンプライアンスを確保して企業ポリシーに従うために、データレイ クのエッジにおいて、すべてのガバナンス機能を一貫した方法で実行する必要が あります。 データの保存と検索 – 開発者がデータレイクから標準的な API を使用して、標準的な形式 のデータのクエリを実行できるようにするための機能領域です。 • バッチ - 通常はインタラクティブなワークロードに使用されることのない、スルー プットとレイテンシの高い分析対象データの処理機能です。 • 分析 - 通常は、時間とともにクエリが変化するインタラクティブなワークロードに 使用されます。 • インメモリ - インタラクティブな使用やその他の低レイテンシのニーズに対応す る、非常にレイテンシの低いクエリをサポートするために使用されます。 • 検索 / インデックス - 情報や関係を迅速に特定する機能をサポートします。 • OLTP – 事業部門や運用チームで使用されることの多いトランザクションシステム をサポートすることを目的としています。 ストレージ – 主に 2 つのタイプがあります。 • オブジェクト - オブジェクトストレージは、非リレーショナルデータと後から分析を 行う情報の履歴コピーを保存する、データレイクの重要なコンポーネントです。 • 長期 - 通常オブジェクトストレージのコンポーネントである長期ストレージは、定 期的に使用しない可能性があるものの、引き続きアクセス可能な状態にしておく必 要があるデータのアーカイブに必要です。一般的には、コンプライアンスポリシー やリーガルホールドの規則に準拠するために使用されます。 データコンシューマー – データレイクは、データコンシューマーがデータへのアクセ スとさまざまなタイプのアプリケーションへのデータの提供に使用する、多様なインター フェイスをサポートできます。 40 | THE DOPPLER | 2016年夏号