The Doppler Quarterly (DEUTSCHE) Sommer 2016 - Page 42

Der Aufbau eines Datenlakes ist die Integration komplexer Technologien, die zusammenwirken, um den Zugang zu verschiedenen Datensätzen zu ermögli- chen. Nachfolgend sind die wichtigsten Funktionsbereiche aufgeführt, die bei allen Implementierungen von Datenlakes berücksichtigt werden sollten: Datenverarbeitung – Die Fähigkeit des Datenlakes, sich nahtlos mit anderen Systemen zu verbinden, eindeutige Zuordnungen für Daten bereitzustellen und Daten automatisiert und äußerst zuverlässig zu verlagern. • Streaming – Fähigkeit zur Analyse und Entscheidungsfindung bei Daten, die gerade übertragen werden. • Regeln/Abgleich – Möglichkeit, Musterabgleiche mit Daten für Vorgänge wie Deidentifikation oder Deduplizierung durchzuführen. • ETL – Eine ETL-Engine (Extract-Transform-Load) ist für die Integration in bestehende RDBMS- und EDW-Plattformen besonders wichtig. • Governance – Alle Governance-Funktionen sollten einheitlich an der Peripherie des Datenlakes implementiert werden, um die Compliance und die Einhaltung der Unternehmensrichtlinien zu gewährleisten. Datenspeicherung und -abruf – Dies sind Funktionsbereiche, die es Ent- wicklern ermöglichen, Daten in Standardformaten mit Hilfe von Standard-APIs aus dem Datenlake abzufragen. • Batch – Hoher Durchsatz und lange Latenzzeiten bei der Verarbeitung von Daten, die analysiert werden, was bei interaktiven Workloads nicht üblich ist. • Analyse – Wird häufig für interaktive Workloads verwendet, bei denen sich die Abfragen im Lauf der Zeit ändern. • Speicherintern – Wird verwendet, um Abfragen mit sehr kurzer Latenz- zeit zu unterstützen, die eine interaktive Nutzung oder andere Anforde- rungen mit kurzer Latenzzeit unterstützen. • Suche/Index – Diese Funktionen unterstützen die Fähigkeit, Informatio- nen und Beziehungen schnell zu lokalisieren. • OLTP – Ist auf die Unterstützung von Transaktionssystemen ausgerich- tet, die üblicherweise in Geschäftsbereichen und von Operations-Teams verwendet werden. Speicher – Es gibt zwei primäre Arten von Speicher. • Objektspeicher – Ein Objektspeicher ist eine wesentliche Komponente eines Datenlakes zur Speicherung nicht-relationaler Daten sowie histori- scher Kopien von Informationen zur späteren Analyse. • Langzeitspeicher – Die langfristige Speicherung, die üblicherweise eine Komponente des Objektspeichers ist, wird für die Archivierung von Daten benötigt, die nicht regelmäßig verwendet werden, aber dennoch zugänglich sein müssen. Wird häufig für C