The Doppler Quarterly (日本語) 夏 2016 | Page 44
データコンシューマー
Googleベースの
データレイク
Prediction API
Google ML
データレイクのデータ
の処理 (Pub/Sub)
ダッシュボード
データレイクの
データの処理
ガバナンス
ポリシー
データサイエンス
ETLエンジン
ルール/マッチング
エンジン
e-コマース
ストリーミング分析
Hadoop
メタデータ
BI
モバイル
アプリケーション
データ統合
Google Cloud Storage
図6: Google社がホストするデータレイク
Google 社が提供する主なデータレイクテクノロジーとデータレイク機能は、以下のとお
りです。
運用面
Pub/Sub – Pub/Sub は、開発者によるシステムとツール間のシームレスなデータ共有
を可能にします。
拡張性とパフォーマンス
BigQuery – BigQuery は、一般的に読み取りの多いデータセットを分析するための
非常にスケーラブルなプラットフォームを提供します。BigQuery は、IT 組織の運用の
オーバーヘッドを低減させる PaaS ソリューションです。
データアクセスとデータ検索
Google Cloud Storage – Google Cloud Storage は、履歴およびアーカイブデータ
を保存するためのオブジェクトインターフェイスを提供します。
Hadoop on Google Compute Engine – Google 社は、Google Compute Engine
上で Hadoop を実行するためのベンダーソリューションを複数提供しています。これは、
処理と準備が完了したデータを BigQuery などの他のシステムに提供する、スケーラブ
ルなバッチ処理環境としてデータレイクで活用することが可能です。
高度な機能
Google Machine Learning – Google Machine Learning の機能により、開発者は
事前に強化されたモデルを活用したり、既存のモデルを強化したりしてデータの分析を
迅速化できます。
Prediction API – Google Prediction API は、別のサーバーやサービスを起動するこ
となく迅速にデータのパターンを特定できる機能を提供します。
42 | THE DOPPLER | 2016年夏号