The Doppler Quarterly (DEUTSCHE) Sommer 2017 | Page 20

Abbildung 3 : Eine AWS-basierte Architektur für die Metadatenspeicherung im Data Lake
bank gespeichert werden . Der daraus resultierende DynamoDB-basierte Datenkatalog kann von Elasticsearch indiziert werden , sodass Geschäftsanwender eine Volltextsuche durchführen können .
AWS Glue : ein Produkt , das in Kürze veröffentlicht werden soll und das eine Reihe automatisierter Tools zur Unterstützung der Katalogisierung von Datenquellen bietet . AWS Glue kann Datenquellen durchsuchen und einen Datenkatalog mit vordefinierten Klassifikatoren für viele gängige Quellformate und Datentypen erstellen , einschließlich JSON , CSV , Parquet und vieles mehr . In diesem Zusammenhang bietet es das potenzielle Versprechen für Unternehmensimplementierungen .
Wir empfehlen Kunden , die Datenkatalogisierung zu einer zentralen Voraussetzung für eine Data-Lake-Implementierung zu machen .
Datenseezugriff und -Mining
Schema on Read
' Schema on write ' ist das bewährte Muster zur Bereinigung , Transformation und für das Hinzufügen eines logischen Schemas zu den Daten vor der Speicherung in einer ' strukturierten ' relationalen Datenbank . Wie bereits erwähnt , basieren Data Lakes jedoch auf einem völlig anderen Muster – dem ‚ schema on read ‘ –, das verhindert , dass der primäre Datenspeicher nicht von einem vorgegebenen Schema abhängig ist . Daten werden in einem unverarbeiteten oder nur leicht verarbeiteten Format gespeichert , wobei jedes Analysewerkzeug eine für den Analysekontext geeignete geschäftlich sinnvolle Bedeutung auf den Datensatz anwenden kann . Dieser Ansatz bietet viele Vorteile , einschließlich der Nutzung verschiedener Tools für den Zugriff auf die Daten für verschiedene Zwecke . Datenverarbeitung
Sobald die Ebene der unveränderlichen Rohdaten im Datensee angelegt ist , müssen Sie mehrere Ebenen mit verarbeiteten Daten erstellen , um im Unternehmen verschiedene Anwendungsfälle zu ermöglichen . Dies sind Beispiele für den zuvor beschriebenen strukturierten Speicher . Zu den typischen Vorgängen , die zum Erstellen dieser strukturierten Datenspeicher erforderlich sind , zählen :
• Kombination verschiedener Datensätze
• Denormalisierung
• Bereinigung , Deduplizierung , Verwaltung
• Ableitung berechneter Datenfelder
Apache Spark ist zum führenden Tool für die Verarbeitung der Rohdatenebene geworden , um verschiedene wertschöpfende strukturierte Datenebenen zu erstellen . Data Warehousing
In einigen speziellen Anwendungsfällen ( denken wir an Hochleistungs-Data Warehouses ) müssen Sie möglicherweise SQL-Abfragen an Daten im Petabyte-Bereich ausführen und sehr schnell komplexe Analyseergebnisse liefern . In diesen Fällen müssen Sie möglicherweise einen Teil Ihrer Daten aus Ihrem
18 | THE DOPPLER | SOMMER 2017