The Doppler Quarterly (DEUTSCHE) Sommer 2017

Abbildung 3 : Eine AWS-basierte Architektur für die Metadatenspeicherung im Data Lake

bank gespeichert werden . Der daraus resultierende DynamoDB-basierte Datenkatalog kann von Elasticsearch indiziert werden , sodass Geschäftsanwender eine Volltextsuche durchführen können .

AWS Glue : ein Produkt , das in Kürze veröffentlicht werden soll und das eine Reihe automatisierter Tools zur Unterstützung der Katalogisierung von Datenquellen bietet . AWS Glue kann Datenquellen durchsuchen und einen Datenkatalog mit vordefinierten Klassifikatoren für viele gängige Quellformate und Datentypen erstellen , einschließlich JSON , CSV , Parquet und vieles mehr . In diesem Zusammenhang bietet es das potenzielle Versprechen für Unternehmensimplementierungen .

Wir empfehlen Kunden , die Datenkatalogisierung zu einer zentralen Voraussetzung für eine Data-Lake-Implementierung zu machen .

Datenseezugriff und -Mining

Schema on Read

' Schema on write ' ist das bewährte Muster zur Bereinigung , Transformation und für das Hinzufügen eines logischen Schemas zu den Daten vor der Speicherung in einer ' strukturierten ' relationalen Datenbank . Wie bereits erwähnt , basieren Data Lakes jedoch auf einem völlig anderen Muster – dem ‚ schema on read ‘ –, das verhindert , dass der primäre Datenspeicher nicht von einem vorgegebenen Schema abhängig ist . Daten werden in einem unverarbeiteten oder nur leicht verarbeiteten Format gespeichert , wobei jedes Analysewerkzeug eine für den Analysekontext geeignete geschäftlich sinnvolle Bedeutung auf den Datensatz anwenden kann . Dieser Ansatz bietet viele Vorteile , einschließlich der Nutzung verschiedener Tools für den Zugriff auf die Daten für verschiedene Zwecke . Datenverarbeitung

Sobald die Ebene der unveränderlichen Rohdaten im Datensee angelegt ist , müssen Sie mehrere Ebenen mit verarbeiteten Daten erstellen , um im Unternehmen verschiedene Anwendungsfälle zu ermöglichen . Dies sind Beispiele für den zuvor beschriebenen strukturierten Speicher . Zu den typischen Vorgängen , die zum Erstellen dieser strukturierten Datenspeicher erforderlich sind , zählen :

• Kombination verschiedener Datensätze

• Denormalisierung

• Bereinigung , Deduplizierung , Verwaltung

• Ableitung berechneter Datenfelder

Apache Spark ist zum führenden Tool für die Verarbeitung der Rohdatenebene geworden , um verschiedene wertschöpfende strukturierte Datenebenen zu erstellen . Data Warehousing

In einigen speziellen Anwendungsfällen ( denken wir an Hochleistungs-Data Warehouses ) müssen Sie möglicherweise SQL-Abfragen an Daten im Petabyte-Bereich ausführen und sehr schnell komplexe Analyseergebnisse liefern . In diesen Fällen müssen Sie möglicherweise einen Teil Ihrer Daten aus Ihrem

18 | THE DOPPLER | SOMMER 2017

The Doppler Quarterly (DEUTSCHE) Sommer 2017 | Page 20