The Doppler Quarterly (DEUTSCHE) Frühjahr 2017

• Verarbeitung enormer Datenmengen mit einer leistungsfähigen zugrunde liegenden Engine . ( Selbst die Big-Data-Editionen der führenden ETL-Lösungen sind dazu noch nicht imstande .)

• Die Benutzer müssen Datenqualitätstests mit so wenigen Klicks wie möglich erstellen können .

• Tools müssen auch nach Bedrohungen suchen , die über diejenigen hinausgehen , für die sie programmiert wurden . Sie müssen mithilfe von Self-Learning-Algorithmen selbstständig das gesamte Spektrum der spezifischen Datenqualitätsregeln für das Dataset erlernen .

• Die Ergebnisse der Qualitätsindikatoren müssen in relevante Metriken für verschiedene Stakeholder , z . B . Führungskräfte , Teamleiter und Datenqualitätsverantwortliche , übersetzbar sein .

Die Cloud-Einführung beschleunigt sich , um geschäftskritische Funktionen zu operationalisieren und die Nutzung von Daten Dritter auszubauen . Vor diesem Hintergrund ist dringend ein systematisches Konzept erforderlich , um die Akkuratheit , Vollständigkeit und Qualität der Daten sicherzustellen , die von Cloud-Anwendungen genutzt werden . Solange ein angemessenes Niveau von Datenqualitätsprüfungen fehlt , könnten Unternehmen rechtliche oder operative Probleme bekommen , die die möglichen Vorteile des Cloud-Einsatzes zunichtemachen . Wenn die Kunden speziell AWS nutzen , empfehlen wir die folgenden Prüfungen :

• Qualitätsprüfungen für Eingabedaten : Wenn Daten in Amazon S3 eingehen ( entweder aus On-Premise- oder Drittsystemen ), müssen autonome Datenqualitätsprüfungen durchgeführt werden , um Datensatz- und Dateiduplikate , anomale Datensätze , unvollständige Datensätze sowie strukturelle und semantische Datenabweichungen zu erkennen .

• Datenvollständigkeit zwischen On-Premise-Systemen , S3 , Amazon EMR und Redshift : Stellen Sie sicher , dass bei der Datenübertragung vom On-Premise-System zur Landing Zone ( S3 ), zur Verarbeitungsanwendung ( EMR ) und schließlich zum Data-Warehousing-System ( Redshift ) kein Datensatz verloren geht .

Vor einer größeren Analyseimplementierung in der Cloud sollte Ihr Unternehmen die wichtigsten Standards für die Datenqualität definieren , um sicherzustellen , dass Ihre Analysten mit den verfügbaren

Daten effektiv arbeiten können . Mit den folgenden Tools können Sie für Datenqualität sorgen und sie im Laufe der Zeit aufrechterhalten :

• DataBuck von FirstEigen ist ein autonomes Self-Learning-Tool zur Validierung und Herstellung von Big-Data- und Cloud-Datenqualität . Es prüft die Datenintegrität und stimmt die Cloud mit der On-Premise-Quelle ab . Dabei setzt es Einschränkungen durch , indem schlechte Daten herausgefiltert und die entsprechenden Personen benachrichtigt werden .

• Informatica bietet eine umfassende Suite von DaaS-Produkten ( Data as a Service ), einschließlich Datenmanagementplattformen , Anwendung von einmal definierten Regeln über mehrere Plattformen , Überprüfung von Kontaktdatensätzen und Services für die Datenaufbereitung .

• IBM bietet Datenqualitätslösungen ( Infosphere , BigInsights – BigQuality ), mit denen die Benutzer die Datenqualität beurteilen , herstellen und überwachen können sowie konsistenten Einblick in Schlüsseleinheiten erhalten .

• SAS kombiniert langjährige Erfahrung im Bereich Datenqualität , um den Benutzern Tools anzubieten , mit denen sie Probleme einfach erkennen , eine Datenvorschau erhalten und wiederholbare Prozesse in einer zentralen Managementansicht über verschiedene Quellen hinweg einrichten können .

Datenqualitätstools in der Cloud müssen in erster Linie entsprechend den Datenmengen skalierbar sein und zudem eine Vielzahl von Integrationsmethoden nutzen , um verschiedene Analysetools für dasselbe Dataset zu unterstützen .

Die Cloud gibt Ihnen neue Möglichkeiten , die Effizienz und Agilität bei der Big-Data-Speicherung und -Analyse zu steigern . Ihr Unternehmen muss jedoch dafür sorgen , dass die Datenintegrität während des gesamten Prozesses gewahrt bleibt , um von diesem neuen Potenzial der Cloud zu profitieren . Über die Autoren

Seth Rao und Amit Dutta sind CEO bzw . CTO von FirstEigen , einem in Chicago ansässigen Unternehmen für Datenprüfung und -analyse . Ihr Schwerpunkt liegt darauf , maschinelles Lernen in Datenqualitätstools zu nutzen , um den Prozess autonom zu machen – bei minimalem Konfigurationsaufwand und Bedienereingriff .

FRÜHJAHR 2017 | THE DOPPLER | 33

The Doppler Quarterly (DEUTSCHE) Frühjahr 2017 | Page 35