The Doppler Quarterly (日本語) 夏 2016

データコンシューマー Googleベースのデータレイク Prediction API Google ML データレイクのデータの処理 (Pub/Sub) ダッシュボードデータレイクのデータの処理ガバナンスポリシーデータサイエンス ETLエンジンルール/マッチングエンジン e-コマースストリーミング分析 Hadoop メタデータ BI モバイルアプリケーションデータ統合 Google Cloud Storage 図6: Google社がホストするデータレイク Google 社が提供する主なデータレイクテクノロジーとデータレイク機能は、以下のとおりです。運用面 Pub/Sub – Pub/Sub は、開発者によるシステムとツール間のシームレスなデータ共有を可能にします。拡張性とパフォーマンス BigQuery – BigQuery は、一般的に読み取りの多いデータセットを分析するための非常にスケーラブルなプラットフォームを提供します。BigQuery は、IT 組織の運用のオーバーヘッドを低減させる PaaS ソリューションです。データアクセスとデータ検索 Google Cloud Storage – Google Cloud Storage は、履歴およびアーカイブデータを保存するためのオブジェクトインターフェイスを提供します。 Hadoop on Google Compute Engine – Google 社は、Google Compute Engine 上で Hadoop を実行するためのベンダーソリューションを複数提供しています。これは、処理と準備が完了したデータを BigQuery などの他のシステムに提供する、スケーラブルなバッチ処理環境としてデータレイクで活用することが可能です。高度な機能 Google Machine Learning – Google Machine Learning の機能により、開発者は事前に強化されたモデルを活用したり、既存のモデルを強化したりしてデータの分析を迅速化できます。 Prediction API – Google Prediction API は、別のサーバーやサービスを起動することなく迅速にデータのパターンを特定できる機能を提供します。 42 | THE DOPPLER | 2016年夏号

The Doppler Quarterly (日本語) 夏 2016 | Page 44