The Doppler Quarterly (FRANÇAIS) Printemps 2017 - Page 34

mesure que les données entrent et sortent du cloud, la qualité des données se détériore souvent et perd sa fi abilité du fait des éléments suivants : • Incapacité à vérifi er (et alerter) les sources de données défectueuses/manquantes jour après jour • Incapacité à faire appliquer les contraintes liées aux données, par exemple en autorisant les dou- blons : violation d'un élément fondamental • Les sources de données multiples qui envoient des données au cloud se désynchronisent au fi l du temps • Changement structurel des données dans les pro- cessus en amont non prévu par le cloud • Présence de multiples plateformes informatiques (Hadoop, DW, cloud) Des processus défectueux, des politiques ad hoc en matière de données, une mauvaise discipline dans la saisie et le stockage des données et un manque de con- trôle sur certaines sources de données contribuent à l'incohérence des données entre le cloud et les systèmes sur site. La qualité des données est basée sur une série de métriques. Ces métriques varient selon le secteur et l'utilisation des données. La meilleure pratique courante pour garantir l'intégrité des données consiste à vérifi er les six dimensions fondamentales de la qualité des données : • Exhaustivité : les jeux et éléments de données sont-ils tous enregistrés intégralement ? • Unicité : existe-t-il des doublons ? • Respect des délais : mesure dans laquelle les don- nées représentent la réalité à partir du moment requis. • Validité : les données correspondent-elles aux règles ? Un jeu de données est valide s'il est con- forme à la syntaxe (format, type, plage) de sa défi nition. • Exactitude/caractère raisonnable : les données sont-elles représentatives du jeu de données ? Mesure dans laquelle les données décrivent cor- rectement l'objet ou l'événement « réel » décrit. • Cohérence : absence de différence lors de la com- paraison de deux représentations ou plus des mêmes données entre différents jeux de données. Cela peut également inclure les relations entre dif- 32 | THE DOPPLER | PRINTEMPS 2017 férentes variables. L'approche traditionnelle adoptée par les développeurs pour garantir la qualité des données consiste à suivre ces étapes de façon linéaire : • • • • • • Prévoir les points d'échec (menaces attendues) Code pour atténuer les menaces prévues Tester le code Mettre le code en production Détecter de nouveaux points d'échec inattendus Nouveau codage pour les défaillances inatten- dues… test… production • Maintenir et mettre à jour les règles de pertinence et d'exactitude Les menaces de données les plus préjudiciables sont généralement inattendues et ne sont pas atténuées grâce à une programmation proactive. Le plus grand défi inhérent à la validation des données est la capacité à créer et à maintenir des milliers de règles de qualité des données qui peuvent constamment évoluer au fi l du temps. Les entreprises ont besoin d'établir une struc- ture de validation de la qualité des données qui se prête à l'autorisation de fl ux de données volumineux et com- plexes sur de multiples plateformes. Actuellement, cette opération onéreuse est un processus fastidieux exigeant beaucoup de travail et sujet aux erreurs humaines. Les données provenant de nombreuses sources différentes, les interrelations et les validations deviennent com- plexes. Par conséquent, les erreurs inattendues aug- mentent de façon exponentielle. Les approches actuelles en matière de qualité des don- nées sont raisonnablement aptes à atténuer les « men- aces prévues ». Cependant, elles ne sont ni évolutives ni pérennes. Elles ne fonctionnent pas lorsque les données passent d'une plateforme à l'autre et ne conviennent vraiment pas à une initiative Big Data/cloud. Au lieu de moderniser les solutions existantes pour résoudre les problèmes de qualité de Big Data, les entreprises doivent opter pour une solution intelligente de validation des données, qui continuera d'apprendre de manière autonome. Un nouveau paradigme de la qualité des données La prochaine évolution pour assurer la qualité des don- nées du Big Data dans le cloud doit, au minimum, satis- faire les besoins suivants : • Gérer des volumes de données massifs à l'aide d'un puissant moteur sous-jacent. (Même les éditions Big Data des principales solutions ETL ne peuvent