The Doppler Quarterly (DEUTSCHE) Sommer 2017

Abbildung 1: Speicherebenen eines Data Lakes segment und können die gewünschten Berichte mit- hilfe einer Vielzahl von Tools erstellen. Die IT wird zum Verwalter der Infrastruktur und der Daten in der Cloud, während das Unternehmen die Verantwor- tung für das Data Mining und die Untersuchung der Daten übernimmt. Entwurf des physischen Speichers Der physische Speicher bildet die Grundlage für die Konzeption und Implementierung jedes Data Lakes. Dabei wird die zentrale Speicherebene für die Pri- märdatenbestände genutzt. Üblicherweise enthält sie Rohdaten und/oder gering verarbeitete Daten. Folgende Prinzipien und Anforderungen sollten die wichtigsten Aspekte bei der Evaluierung von Techno- logien für die cloudbasierte Speicherung von Daten- seen darstellen: Außergewöhnliche Skalierbarkeit – Da ein Enter- prise Data Lake normalerweise als zentralisierter Datenspeicher für eine gesamte Abteilung oder das Unternehmen insgesamt dienen soll, muss er signifi- kant skaliert werden können und darf keine Kapazi- tätsgrenzen aufweisen. Hohe Lebensdauer – Als Hauptspeicher kritischer Unternehmensdaten bietet die sehr hohe Lebens- dauer der zentralen Speicherebene eine ausgezeich- nete Datenrobustheit, ohne dass hierfür extrem hochverfügbare Designs erforderlich sind. Support unstrukturierter, semi-strukturierter und strukturierter Daten – Eine der wichtigsten Konzep- tionsaspekte eines Data Lakes ist die Möglichkeit, alle Datentypen in einem einzigen Repository zu speichern. Unabhängigkeit von festen Schemata – Die Fähig- keit, ein für jeden Verwendungszweck erforderliches Schema beim Lesen anzuwenden, kann nur erreicht werden, wenn die zugrunde liegende zentrale Spei- cherebene kein festes Schema vorschreibt. Trennung von Rechenressourcen – Der bedeutendste philosophische und praktische Vorteil von cloudba- sierten Data Lakes im Vergleich zu „alten“ Big Data-Speichern auf Hadoop ist die Fähigkeit, Spei- cher und Rechenleistung voneinander zu trennen und so eine unabhängige Skalierung zu ermöglichen. Angesichts der Anforderungen sind objektbasierte Speicher zur De-facto-Speicherwahl für Data Lakes geworden. AWS, Google und Azure bieten alle Objekt- speichertechnologien an. Das wesentliche Merkmal des zentralen Speichers besteht darin, mit wenig oder gar keinen Schema- strukturen alle Datentypen zu zentrieren. Ein Data Lake wird jedoch üblicherweise zusätzliche „Ebenen“ über dem zentralen Speicher haben. Dies ermöglicht die Aufbewahrung der Rohdaten als im Wesentlichen unveränderlich, während die zusätzlichen Ebenen in der Regel eine Struktur aufweisen, um eine effektive Datennutzung wie Berichterstellung und Analyse zu unterstützen. Abbildung 1 zeigt die zusätzlichen Schichten, die der Speicherebene für Rohdaten hin- zugefügt wurden. Ein spezifisches Beispiel wäre das Hinzufügen einer von einem Hive-Metastore definierten Ebene. In einer solchen Ebene sind die Dateien im Objektspei- cher in „Verzeichnisse“ partitioniert und von Hive geclusterte Dateien werden darin so angeordnet, SOMMER 2017 | THE DOPPLER | 13

The Doppler Quarterly (DEUTSCHE) Sommer 2017 | Page 15