The Doppler Quarterly (日本語) 夏 2017 - Page 21

Consumption Pattern 消費パターン Machine 機械学習 Learning Ad-hoc アドホック分析 Analysis レポート Reports ダッシュボード Dashboard 処理 / 標準化済みの ユースケースに固有のデータ Enterprise エンタープライズ Interactive インタラクティブな Search 検索 Fast Queries 高速クエリ Raw データ Data raw データレイ ク Data Lake 図 4: データレイクレイヤーと消費パターン インタラクティブなクエリとレポート このような大規模なデータストアを分析するために一般的な SQL クエリツールを活用しなければならないユースケースは、 今もなお数多く存在します。Apache Hive、 Apache Presto、 Amazon Athena、および Impala はいずれも、 raw データ上 に SQLで使いやすいスキーマを作成するか、そこでそのスキー マを活用することにより、こうしたユースケースをサポートできる よう特別に開発されました。 データ探索と機械学習 最後に、データレイクから最大のメリットを得られるユーザー は、さまざまなスキーマに縛られることのない全社規模のデー タにアクセスし、データの探索やマイニングによって価値の高 いビジネスインサイトを取得できる、データサイエンティストと 言えます。データサイエンティスト向けのツールの多くは、デー タレイクにアクセスする Hadoop ベースのプラットフォームを基 盤としているか、それらのプラットフォームと連携させることが 可能です。 編集後記 この記事は、全社的な分析インフラストラクチャのモ ダナイゼーション戦略において上級幹部や CXO が 考察する必要のある、戦略に関する留意事項やきわ めて重要な技術の詳細を取り上げる連載シリーズの 第 2 弾です。Cloud Technology Partners は、パー トナーとして複数のお客様のモダナイゼーションを サポートする中で得た見解や有益な情報を共有して います。 結論 データレイクを適切に設計して構築すれば、データサイロが排 除され、エンタープライズレベルで柔軟にデータの探索とマイ ニングが行えるようになります。データレイクは、中核的な資産 としてエンタープライズビッグデータを収集してデータからモデ ルベースの有益な情報を抽出し、データ主導の意思決定の文 化を築くうえで最も必要不可欠な要素の 1 つとなっています。 クラウドに関する最新の情報を お届けします。 以下のURLで登録を済ませれば、 毎週金曜日にこのような記事を お受け取りいただけます。 cloudtp.com/doppler (英語) 2017 年夏号 | THE DOPPLER | 19