The Doppler Quarterly (日本語) 春 2017 - Page 34

• 品質の悪いまたは欠落のあるデータソースを毎日検証 ( お • 予測できなかった障害のための新規コーディング、テスト、 • 重複の許可など、データに制限 ( 例 : プライマリキー違反 ) • 適合性と正確さに対するルールの維持と更新 よび警告 ) できない をかけられない • クラウドにデータを転送している複数のデータソースが、時 間とともに同期できなくなる • アップストリームプロセスにおけるデータへの構造的な変更 がクラウドでは予測できない • 複数の IT プラットフォームの存在 (Hadoop、データウェア ハウス、クラウド ) 本番環境への投入 データに最も被害を与える脅威は通常予測できず、プロアク ティブなプログラミングによっても軽減できません。データ検 証の最大の課題は、時間とともに常に進化できるデータ品質 ルールの作成と維持を行う能力にあります。企業は、大規模で 複雑なデータフローを複数のプラットフォーム全体で認可する のに適したデータ品質検証フレームワークを確立する必要が あります。現時点では、そうした面倒な業務となるとうんざりす 欠陥のあるプロセス、その場しのぎのデータポリシー、データ のキャプチャーと保存における規制の甘さ、一部のデータソー スに対する制御の欠如などがすべて、クラウドとオンプレミス システムとの間で発生するデータ不一致の原因となります。 データ品質はさまざまなメトリックに基づいています。こうした メトリックは、業界やデータの使用方法によって異なります。 データの完全性を確保する一般的なベストプラクティスは、次 に示すようにデータ品質において中心となる 6 つの側面を確認 することです。 • 網羅性 - すべてのデータセットとデータアイテムが完全に 記録されていますか。 • 一意性 - 重複はありますか。 • 適時性 - 要求された時点から実データとなるまでの時間的 度合いです。 • 妥当性 - データはルールと一致していますか。構文 (フォー マット、タイプ、範囲 ) に従っている場合、データセットは妥 当と言えます。 • 精度 / 合理性 - データはデータセットを反映していますか。 るような労働集約的なプロセスを進み、人為的ミスも発生しが ちです。また、多くの異なるソースからデータが流れると、相互 関係が複雑になり、検証も煩雑になります。結果として、予測で きないエラーが急激に増加します。 現在のデータ品質のアプローチは、 「予測された脅威」に合理 的に適合しています。しかし、こうしたアプローチは、拡張性と 持続性のどちらも劣ります。データが複数のプラットフォームを 行き来する場合は機能せず、ビッグデータやクラウドイニシア チブにはまったく適合しません。既存のソリューションを改修し てビッグデータの品質の問題を解決する代わりに、企業は、継 続的な自律学習の機能を持つインテリジェントデータ検証ソ リューションを選択する必要があります。 データ品質の新たな枠組み クラウドにおけるビッグデータのデータ品質を高める次の進化 では、最小で以下のニーズを満たす必要があります。 • 基盤となる高性能エンジンによる大容量データの処理 ( 主 要な ETL ソリューションのビッグデータエディションでもま だ不可能です )。 データが「実世界」のオブジェクトまたは説明されるイベン トを正しく表しているかどうかの度合いです。 • ユーザーは、最小回数のクリックでデータ品質テストの設定 • 整合性 - 異なるデータセット間で 2 つ以上の同じデータの • ツールは、脅威を超える機能をプログラミングされ、脅威を 表現を比較したときに差異がないことです。これには、異な る変数の間の関連性も含まれます。 開発者がデータ品質を確保するときの従来のアプローチでは、 次のステップを順に実行します。 • 障害の発生点の予測 ( 予測された脅威 ) • 予測された脅威を軽減するためのコーディング • コードのテスト • 本番環境へのコードの投入 • 予測でき bhg8ea:f9kkn'xk'9a̈HT M9nm9)yc¸c8icxjdx8l8jࢸof '9(icxoz)xc8`ࢸofx og z!mykikਸ8ஸj8ࢸ x`xࡸ8dz,8स x88हnyke¸i!o8jkiicxjdx8l8jࢸof (H9dz,88x88kd98k ze`(kx8ji"ye Bc9efh xx88888 x8dz,k`9"z !xjjxke/ !Bc9b*y*8icx8ajfxoz)xc8`ࢸofx x੸yy*8j8ࢸ xjg xk`b*8jx8xx88kb*y*8c9)z`'j`,8j8 xx੸xਸꂸx8i/o*8ex88kh讹) yy) ydz,ह讹/Bfx/d8jਸx8xn8k⹠)xj8ஸc9n'eofx