The Doppler Quarterly (日本語) 夏 2016 | Page 40
機械学習のアルゴリズ
ムを強 化してグループ
を予測し、
それらの予測
に基づいて新しいデー
タにラベルを付ける
強化された関係に
基づいて未知のデータ
を推測する
主要なエンティティの
関係を明らかにする
図4: 機械学習のプロセス
機械学習は、既知の分析済みのデータセットを活用して、将来未知のデータセットを
実行するための特定のモデルを強化する、一連の反復的な手順です。図 4 は、デー
タサイエンティストが機械学習を活用する際に必要となるモデルを強化するために実
行する一般的な手順を示したもので、このようにして強化されたモデルは、R、SAS、
Python で作成したオープンソースツールなどの各種分析ツールと連動させて使用する
ことが可能です。
クラウドベースのデータレイクは、プラットフォームで提供される機械学習機能を活用
できるという価値を付加します。AWS 社や Google 社のようなベンダーは、データセッ
トにすぐに使用できるよう強化された、一連の豊富なモデルを提供するとともに、独自
仕様のデータセットに使用できるよう、
カスタムモデルを強化することが可能です。また、
AWS 社と Google 社は、長年にわたって社内で使用して改良を加えた、さまざまな機
械学習テクノロジーを展開しています。
アーキテクチャー
データレイクの技術アーキテクチャーは、プラットフォームで実行される主要なユース
ケースに対応するものでなければなりません。データレイクソリューションの設計にあ
たっては、以下のような設計要素が重要となります。
• ユースケース – データレイクのユースケースとワークロードを早い段階で特定す
れば、さまざまな分析エンジン、拡張に関する留意事項、およびデータ統合ポイン
トの優先順位を適切に決定できます。
• 運用面 – データレイクアーキテクチャーに関しては、監視と応答に必要なツール
だけでなく、組織内の IT 組織でシステムを維持できるようにするためにどのテク
ノロジーを活用するのかを考慮しなければなりません。
• 拡張性とパフォーマンス – 組織の成長と進化に合わせて、データレイクの使
用範囲は広がります。早い段階でテクノロジーを決定するには、置換を行うことな
くデータレイクを拡張できるテクノロジーの選択肢の機能に注意する必要があり
ます。
これら 3 つの最も重要な留意事項は、以下に示すデータレイクのいくつかの重要な設
計要素となります。
• データアクセスとデータ検索 – クラウドプロバイダーからは、SQL インター
フェイスを使用してデータにアクセスするための多数のツール、JSON オブジェク
トでデータを保存するためのツール、読み取り専用として最適化されたプラット
38 | THE DOPPLER | 2016年夏号