The Doppler Quarterly (DEUTSCHE) Sommer 2017 | Page 15
Abbildung 1: Speicherebenen eines Data Lakes
segment und können die gewünschten Berichte mit-
hilfe einer Vielzahl von Tools erstellen. Die IT wird
zum Verwalter der Infrastruktur und der Daten in der
Cloud, während das Unternehmen die Verantwor-
tung für das Data Mining und die Untersuchung der
Daten übernimmt.
Entwurf des physischen Speichers
Der physische Speicher bildet die Grundlage für die
Konzeption und Implementierung jedes Data Lakes.
Dabei wird die zentrale Speicherebene für die Pri-
märdatenbestände genutzt. Üblicherweise enthält
sie Rohdaten und/oder gering verarbeitete Daten.
Folgende Prinzipien und Anforderungen sollten die
wichtigsten Aspekte bei der Evaluierung von Techno-
logien für die cloudbasierte Speicherung von Daten-
seen darstellen:
Außergewöhnliche Skalierbarkeit – Da ein Enter-
prise Data Lake normalerweise als zentralisierter
Datenspeicher für eine gesamte Abteilung oder das
Unternehmen insgesamt dienen soll, muss er signifi-
kant skaliert werden können und darf keine Kapazi-
tätsgrenzen aufweisen.
Hohe Lebensdauer – Als Hauptspeicher kritischer
Unternehmensdaten bietet die sehr hohe Lebens-
dauer der zentralen Speicherebene eine ausgezeich-
nete Datenrobustheit, ohne dass hierfür extrem
hochverfügbare Designs erforderlich sind.
Support unstrukturierter, semi-strukturierter und
strukturierter Daten – Eine der wichtigsten Konzep-
tionsaspekte eines Data Lakes ist die Möglichkeit, alle
Datentypen in einem einzigen Repository zu
speichern.
Unabhängigkeit von festen Schemata – Die Fähig-
keit, ein für jeden Verwendungszweck erforderliches
Schema beim Lesen anzuwenden, kann nur erreicht
werden, wenn die zugrunde liegende zentrale Spei-
cherebene kein festes Schema vorschreibt.
Trennung von Rechenressourcen – Der bedeutendste
philosophische und praktische Vorteil von cloudba-
sierten Data Lakes im Vergleich zu „alten“ Big
Data-Speichern auf Hadoop ist die Fähigkeit, Spei-
cher und Rechenleistung voneinander zu trennen
und so eine unabhängige Skalierung zu ermöglichen.
Angesichts der Anforderungen sind objektbasierte
Speicher zur De-facto-Speicherwahl für Data Lakes
geworden. AWS, Google und Azure bieten alle Objekt-
speichertechnologien an.
Das wesentliche Merkmal des zentralen Speichers
besteht darin, mit wenig oder gar keinen Schema-
strukturen alle Datentypen zu zentrieren. Ein Data
Lake wird jedoch üblicherweise zusätzliche „Ebenen“
über dem zentralen Speicher haben. Dies ermöglicht
die Aufbewahrung der Rohdaten als im Wesentlichen
unveränderlich, während die zusätzlichen Ebenen in
der Regel eine Struktur aufweisen, um eine effektive
Datennutzung wie Berichterstellung und Analyse zu
unterstützen. Abbildung 1 zeigt die zusätzlichen
Schichten, die der Speicherebene für Rohdaten hin-
zugefügt wurden.
Ein spezifisches Beispiel wäre das Hinzufügen einer
von einem Hive-Metastore definierten Ebene. In
einer solchen Ebene sind die Dateien im Objektspei-
cher in „Verzeichnisse“ partitioniert und von Hive
geclusterte Dateien werden darin so angeordnet,
SOMMER 2017 | THE DOPPLER | 13