The Doppler Quarterly (FRANÇAIS) Printemps 2017 | Page 34
mesure que les données entrent et sortent du cloud, la
qualité des données se détériore souvent et perd sa
fi abilité du fait des éléments suivants :
• Incapacité à vérifi er (et alerter) les sources de
données défectueuses/manquantes jour après
jour
• Incapacité à faire appliquer les contraintes liées
aux données, par exemple en autorisant les dou-
blons : violation d'un élément fondamental
• Les sources de données multiples qui envoient des
données au cloud se désynchronisent au fi l du
temps
• Changement structurel des données dans les pro-
cessus en amont non prévu par le cloud
• Présence de multiples plateformes informatiques
(Hadoop, DW, cloud)
Des processus défectueux, des politiques ad hoc en
matière de données, une mauvaise discipline dans la
saisie et le stockage des données et un manque de con-
trôle sur certaines sources de données contribuent à
l'incohérence des données entre le cloud et les systèmes
sur site.
La qualité des données est basée sur une série de
métriques. Ces métriques varient selon le secteur et
l'utilisation des données. La meilleure pratique courante
pour garantir l'intégrité des données consiste à vérifi er
les six dimensions fondamentales de la qualité des
données :
• Exhaustivité : les jeux et éléments de données
sont-ils tous enregistrés intégralement ?
• Unicité : existe-t-il des doublons ?
• Respect des délais : mesure dans laquelle les don-
nées représentent la réalité à partir du moment
requis.
• Validité : les données correspondent-elles aux
règles ? Un jeu de données est valide s'il est con-
forme à la syntaxe (format, type, plage) de sa
défi nition.
• Exactitude/caractère raisonnable : les données
sont-elles représentatives du jeu de données ?
Mesure dans laquelle les données décrivent cor-
rectement l'objet ou l'événement « réel » décrit.
• Cohérence : absence de différence lors de la com-
paraison de deux représentations ou plus des
mêmes données entre différents jeux de données.
Cela peut également inclure les relations entre dif-
32 | THE DOPPLER | PRINTEMPS 2017
férentes variables.
L'approche traditionnelle adoptée par les développeurs
pour garantir la qualité des données consiste à suivre
ces étapes de façon linéaire :
•
•
•
•
•
•
Prévoir les points d'échec (menaces attendues)
Code pour atténuer les menaces prévues
Tester le code
Mettre le code en production
Détecter de nouveaux points d'échec inattendus
Nouveau codage pour les défaillances inatten-
dues… test… production
• Maintenir et mettre à jour les règles de pertinence
et d'exactitude
Les menaces de données les plus préjudiciables sont
généralement inattendues et ne sont pas atténuées
grâce à une programmation proactive. Le plus grand défi
inhérent à la validation des données est la capacité à
créer et à maintenir des milliers de règles de qualité des
données qui peuvent constamment évoluer au fi l du
temps. Les entreprises ont besoin d'établir une struc-
ture de validation de la qualité des données qui se prête
à l'autorisation de fl ux de données volumineux et com-
plexes sur de multiples plateformes. Actuellement, cette
opération onéreuse est un processus fastidieux exigeant
beaucoup de travail et sujet aux erreurs humaines. Les
données provenant de nombreuses sources différentes,
les interrelations et les validations deviennent com-
plexes. Par conséquent, les erreurs inattendues aug-
mentent de façon exponentielle.
Les approches actuelles en matière de qualité des don-
nées sont raisonnablement aptes à atténuer les « men-
aces prévues ». Cependant, elles ne sont ni évolutives ni
pérennes. Elles ne fonctionnent pas lorsque les données
passent d'une plateforme à l'autre et ne conviennent
vraiment pas à une initiative Big Data/cloud. Au lieu de
moderniser les solutions existantes pour résoudre les
problèmes de qualité de Big Data, les entreprises doivent
opter pour une solution intelligente de validation des
données, qui continuera d'apprendre de manière
autonome.
Un nouveau paradigme de la qualité des
données
La prochaine évolution pour assurer la qualité des don-
nées du Big Data dans le cloud doit, au minimum, satis-
faire les besoins suivants :
• Gérer des volumes de données massifs à l'aide d'un
puissant moteur sous-jacent. (Même les éditions
Big Data des principales solutions ETL ne peuvent