The Doppler Quarterly (日本語) 夏 2016

機械学習のアルゴリズムを強化してグループを予測し、それらの予測に基づいて新しいデータにラベルを付ける強化された関係に基づいて未知のデータを推測する主要なエンティティの関係を明らかにする図4: 機械学習のプロセス機械学習は、既知の分析済みのデータセットを活用して、将来未知のデータセットを実行するための特定のモデルを強化する、一連の反復的な手順です。図 4 は、データサイエンティストが機械学習を活用する際に必要となるモデルを強化するために実行する一般的な手順を示したもので、このようにして強化されたモデルは、R、SAS、 Python で作成したオープンソースツールなどの各種分析ツールと連動させて使用することが可能です。クラウドベースのデータレイクは、プラットフォームで提供される機械学習機能を活用できるという価値を付加します。AWS 社や Google 社のようなベンダーは、データセットにすぐに使用できるよう強化された、一連の豊富なモデルを提供するとともに、独自仕様のデータセットに使用できるよう、カスタムモデルを強化することが可能です。また、 AWS 社と Google 社は、長年にわたって社内で使用して改良を加えた、さまざまな機械学習テクノロジーを展開しています。アーキテクチャーデータレイクの技術アーキテクチャーは、プラットフォームで実行される主要なユースケースに対応するものでなければなりません。データレイクソリューションの設計にあたっては、以下のような設計要素が重要となります。 • ユースケース – データレイクのユースケースとワークロードを早い段階で特定すれば、さまざまな分析エンジン、拡張に関する留意事項、およびデータ統合ポイントの優先順位を適切に決定できます。 • 運用面 – データレイクアーキテクチャーに関しては、監視と応答に必要なツールだけでなく、組織内の IT 組織でシステムを維持できるようにするためにどのテクノロジーを活用するのかを考慮しなければなりません。 • 拡張性とパフォーマンス – 組織の成長と進化に合わせて、データレイクの使用範囲は広がります。早い段階でテクノロジーを決定するには、置換を行うことなくデータレイクを拡張できるテクノロジーの選択肢の機能に注意する必要があります。これら 3 つの最も重要な留意事項は、以下に示すデータレイクのいくつかの重要な設計要素となります。 • データアクセスとデータ検索 – クラウドプロバイダーからは、SQL インターフェイスを使用してデータにアクセスするための多数のツール、JSON オブジェクトでデータを保存するためのツール、読み取り専用として最適化されたプラット 38 | THE DOPPLER | 2016年夏号

The Doppler Quarterly (日本語) 夏 2016 | Page 40