The Doppler Quarterly (DEUTSCHE) Frühjahr 2017 - Page 35

• Verarbeitung enormer Datenmengen mit einer leistungsfähigen zugrunde liegenden Engine. (Selbst die Big-Data-Editionen der führenden ETL-Lösungen sind dazu noch nicht imstande.) • Die Benutzer müssen Datenqualitätstests mit so wenigen Klicks wie möglich erstellen können. • Tools müssen auch nach Bedrohungen suchen, die über diejenigen hinausgehen, für die sie programmiert wurden. Sie müssen mithilfe von Self-Learning-Algorithmen selbstständig das gesamte Spektrum der spezifischen Datenqua- litätsregeln für das Dataset erlernen. • Die Ergebnisse der Qualitätsindikatoren müs- sen in relevante Metriken für verschiedene Sta- keholder, z. B. Führungskräfte, Teamleiter und Datenqualitätsverantwortliche, übersetzbar sein. Die Cloud-Einführung beschleunigt sich, um geschäftskritische Funktionen zu operationalisieren und die Nutzung von Daten Dritter auszubauen. Vor diesem Hintergrund ist dringend ein systematisches Konzept erforderlich, um die Akkuratheit, Vollstän- digkeit und Qualität der Daten sicherzustellen, die von Cloud-Anwendungen genutzt werden. Solange ein angemessenes Niveau von Datenqualitätsprüfun- gen fehlt, könnten Unternehmen rechtliche oder operative Probleme bekommen, die die möglichen Vorteile des Cloud-Einsatzes zunichtemachen. Wenn die Kunden speziell AWS nutzen, empfehlen wir die folgenden Prüfungen: • Qualitätsprüfungen für Eingabedaten: Wenn Daten in Amazon S3 eingehen (entweder aus On-Premise- oder Drittsystemen), müssen autonome Datenqualitätsprüfungen durchge- führt werden, um Datensatz- und Dateidupli- kate, anomale Datensätze, unvollständige Datensätze sowie strukturelle und semantische Datenabweichungen zu erkennen. • Datenvollständigkeit zwischen On-Premi- se-Systemen, S3, Amazon EMR und Redshift: Stellen Sie sicher, dass bei der Datenübertra- gung vom On-Premise-System zur Landing Zone (S3), zur Verarbeitungsanwendung (EMR) und schließlich zum Data-Warehousing-System (Redshift) kein Datensatz verloren geht. Vor einer größeren Analyseimplementierung in der Cloud sollte Ihr Unternehmen die wichtigsten Stan- dards für die Datenqualität definieren, um sicherzu- stellen, dass Ihre Analysten mit den verfügbaren Daten e ffVFb&&VFV;fV֗BFVfvVFVF2;fV6Rl;"FFVVƗL:GB6&vVVB6RФVfRFW"VBVg&V6FW&FV㠮( FF'V6ff'7DVvV7BVWFW06VbV&rFW"fƖFW'VrVBW'7FVЦVrf&rFFVB6VBFFVVƗL:GBW0,;gBFRFFVFVw&L:GBVB7FBFR6V@֗BFW"&V֗6RVVR"F&V6WGBW0V66,:FVvVGW&6FV66V6FRFFVআW&W6vVfFW'BVBFRVG7&V6VFVW'6ЦV&V6&6FwBvW&FV( f&F6&WFWBVRVf76VFR7VFRfF2&GVFVFF26W'f6RV66Ɩ\9ЦƖ6FFVvVVGGFf&VvVЦGVrfVFVfW'FV&VvV ;&W"VЧ&W&RGFf&V 9&W',;gVrfशFFFFV<:GGVVB6W'f6W2l;"FPFFVVf&W&VGVr( $&WFWBFFVVƗL:GG6;g7VvVf7W&R&t6vG2( 2&uVƗG֗BFVVFR&VWBЧW"FRFFVVƗL:GB&WW'FVVW'7FVVV@;&W'v6V;fV6vR67FVFVVЦ&Ɩ666;76VVVFVW&FV( 42&W'Bv:F&vRW&f'VrФ&W&V6FFVVƗL:GBVFV&VWGW&F0V&WFV֗BFVV6R&&VRVf6W&VVVRFFVf'66RW&FVV@vVFW&&&R&W76RVW"VG&VvVVF66B ;&W"fW'66VFVRVVVআvVrV&6FV;fVFFVVƗL:GG7F2FW"6VB;76VW'7FW ƖRVG7&V6VBFVFFVVvV6ƖW&&"6VVBVFVVRfVǦfFVw&F6WFFVWGVVfW'66VFVRǗ6WF2l;"F76V&PFF6WBRVFW'7L;GVFR6VBv'BVWVR;fvƖ6VFVFRVffЧVVBvƗL:GB&VFW"&rFF7V6W'VrV@Ǘ6RR7FVvW&"VFW&VVW72VF6Fl;"6&vVF72FRFFVFVw&L:GB|:F&VBFW0vW6FV&W76W2vWv'B&V'BVfFW6VЦWVVFV禖FW"6VBR&fFW&V9&W"FRWF&V6WF&VB֗BGWGF6B4T'r5Dff'7DVvVVV66v<:G76vVVFW&VЦVl;"FFV,;gVrVBǗ6R"66vW'V@ƖVwBF&Vb66VW2W&VFFVVƒЧL:GG7F2RWGVVFV&W72WFP6V( 2&V֖VfwW&F6Vgv@VB&VFVW&Vw&fbe,9Ą"#rDRDU"30