The Doppler Quarterly (日本語) 夏 2016 - Page 44

データコンシューマー Googleベースの データレイク Prediction API Google ML データレイクのデータ の処理 (Pub/Sub) ダッシュボード データレイクの データの処理 ガバナンス ポリシー データサイエンス ETLエンジン ルール/マッチング エンジン e-コマース ストリーミング分析 Hadoop メタデータ BI モバイル アプリケーション データ統合 Google Cloud Storage 図6: Google社がホストするデータレイク Google 社が提供する主なデータレイクテクノロジーとデータレイク機能は、以下のとお りです。 運用面 Pub/Sub – Pub/Sub は、開発者によるシステムとツール間のシームレスなデータ共有 を可能にします。 拡張性とパフォーマンス BigQuery – BigQuery は、一般的に読み取りの多いデータセットを分析するための 非常にスケーラブルなプラットフォームを提供します。BigQuery は、IT 組織の運用の オーバーヘッドを低減させる PaaS ソリューションです。 データアクセスとデータ検索 Google Cloud Storage – Google Cloud Storage は、履歴およびアーカイブデータ を保存するためのオブジェクトインターフェイスを提供します。 Hadoop on Google Compute Engine – Google 社は、Google Compute Engine 上で Hadoop を実行するためのベンダーソリューションを複数提供しています。これは、 処理と準備が完了したデータを BigQuery などの他のシステムに提供する、スケーラブ ルなバッチ処理環境としてデータレイクで活用することが可能です。 高度な機能 Google Machine Learning – Google Machine Learning の機能により、開発者は 事前に強化されたモデルを活用したり、既存のモデルを強化したりしてデータの分析を 迅速化できます。 Prediction API – Google Prediction API は、別のサーバーやサービスを起動するこ となく迅速にデータのパターンを特定できる機能を提供します。 42 | THE DOPPLER | 2016年夏号