The Doppler Quarterly (DEUTSCHE) Sommer 2016 | Page 42
Der Aufbau eines Datenlakes ist die Integration komplexer Technologien, die
zusammenwirken, um den Zugang zu verschiedenen Datensätzen zu ermögli-
chen. Nachfolgend sind die wichtigsten Funktionsbereiche aufgeführt, die bei
allen Implementierungen von Datenlakes berücksichtigt werden sollten:
Datenverarbeitung – Die Fähigkeit des Datenlakes, sich nahtlos mit anderen
Systemen zu verbinden, eindeutige Zuordnungen für Daten bereitzustellen
und Daten automatisiert und äußerst zuverlässig zu verlagern.
• Streaming – Fähigkeit zur Analyse und Entscheidungsfindung bei Daten,
die gerade übertragen werden.
• Regeln/Abgleich – Möglichkeit, Musterabgleiche mit Daten für Vorgänge
wie Deidentifikation oder Deduplizierung durchzuführen.
• ETL – Eine ETL-Engine (Extract-Transform-Load) ist für die Integration
in bestehende RDBMS- und EDW-Plattformen besonders wichtig.
• Governance – Alle Governance-Funktionen sollten einheitlich an der
Peripherie des Datenlakes implementiert werden, um die Compliance
und die Einhaltung der Unternehmensrichtlinien zu gewährleisten.
Datenspeicherung und -abruf – Dies sind Funktionsbereiche, die es Ent-
wicklern ermöglichen, Daten in Standardformaten mit Hilfe von Standard-APIs
aus dem Datenlake abzufragen.
• Batch – Hoher Durchsatz und lange Latenzzeiten bei der Verarbeitung
von Daten, die analysiert werden, was bei interaktiven Workloads nicht
üblich ist.
• Analyse – Wird häufig für interaktive Workloads verwendet, bei denen
sich die Abfragen im Lauf der Zeit ändern.
• Speicherintern – Wird verwendet, um Abfragen mit sehr kurzer Latenz-
zeit zu unterstützen, die eine interaktive Nutzung oder andere Anforde-
rungen mit kurzer Latenzzeit unterstützen.
• Suche/Index – Diese Funktionen unterstützen die Fähigkeit, Informatio-
nen und Beziehungen schnell zu lokalisieren.
• OLTP – Ist auf die Unterstützung von Transaktionssystemen ausgerich-
tet, die üblicherweise in Geschäftsbereichen und von Operations-Teams
verwendet werden.
Speicher – Es gibt zwei primäre Arten von Speicher.
• Objektspeicher – Ein Objektspeicher ist eine wesentliche Komponente
eines Datenlakes zur Speicherung nicht-relationaler Daten sowie histori-
scher Kopien von Informationen zur späteren Analyse.
• Langzeitspeicher – Die langfristige Speicherung, die üblicherweise eine
Komponente des Objektspeichers ist, wird für die Archivierung von
Daten benötigt, die nicht regelmäßig verwendet werden, aber dennoch
zugänglich sein müssen. Wird häufig für C