The Doppler Quarterly (日本語) 春 2017 - Page 35

タ品質を適切なレベルでチェックできなければ、企業は、クラ ウドプラットフォームの利用で得られる潜在的なメリットを否 定しかねない規制または運用の問題にぶつかります。クライア ントが AWS を特に活用している場合、次のタイプのチェックを お勧めします。 • 入力データ品質チェック - データが、オンプレミスまたは サードパーティシステムから、 Amazon S3 に転送されてい る場合、自律データ品質チェックを実行し、重複したレコー ドとファイル、異常なレコード、不完全なレコード、不要に流 れる構造的データとセマンティックデータなどにフラグを設 定する必要があります。 著者について Seth Rao と Amit Dutta は、それぞれ FirstEigen の CEO と CTO です。FirstEigen はシカゴを拠点とするデータ検証と データ分析の企業です。両者が注目しているのは、データ品質 ツールに機械学習を活用し、最小限の設定と人手によって自 律的なプロセスを実現することです。 • オンプレミス、 S3、 Amazon EMR、 Redshift 間のデータ網 羅性 - オンプレミスシステムからランディングゾーン (S3)、 処理アプリケーション (EMR)、最終的な宛先であるウェア ハウスシステム (Redshift) へと転送される間に、レコードの 損失が発生しないようにします。 クラウドで大規模な分析を展開する前に、企業は、データ品質 の主要な標準の定義に取り組み、アナリストが効果的にデータ を利用できるようにします。次のツールにより、データの高品質 を維持し、時間とともに品質を高めることができます。 • FirstEigen DataBuck - ビッグデータとクラウドデータ の品質の検証と調整を行う自律型および自己学習型のツー ルです。これにより、データ整合性の検証と、オンプレミス ソースとクラウド間の調整を行えることに加え、不良データ にフィルターをかけ、適切な担当者にアラートを送信するこ とで、制限を設けることができます。 • Informatica - データ管 理プラットフォーム、プラット フォーム全体に適用するワンタイム定義ビジネスルール、 連絡先情報の検証、データ改良サービスなど、 Data as a Service (DaaS) 製品のフルスイートを提供します。 • IBM - データクレンジング、データ品質の評価と監視、およ び主要なエンティティの一貫したビューが可能なデータ品 質ソリューション (Infosphere、 BigInsights - BigQuality) を提供します。 • SAS - データ品質に関する何十年もの経験を活かし、複数 のソース全体を一元管理できるビューで、問題の特定、デー タのプレビュー、繰り返し可能なプロセスの設定を行える ツールをユーザーに提供します。 クラウドで使用するデータ品質ツールでは、何よりもまず、デー タボリュームの規模に比例して展開し、次に、複数の分析ツー ルを同じデータセット全体でサポートするさまざまな統合手段 を維持する必要があります。 クラウドは、ビッグデータストレージと分析で効率性とアジリ ティを向上させる新たなチャンスをもたらしますが、こうしたク ラウドの新たな可能性を現実のものとするには、企業が、プロ セス全体を通してデータ整合性を維持する必要があります。 2017 年春号 | THE DOPPLER | 33