The Doppler Quarterly (DEUTSCHE) Sommer 2016 | Page 47
Zuordnung von Überlegungen bei Datenlakes zu den
Grundsätzen
1. Strategie und Wirtschaftlichkeit – Datenlakes weisen bestimmte
Elemente in Bezug auf Strategie und Wirtschaftlichkeit auf, da sie in der
Lage sind, eine bessere Entscheidungsfindung innerhalb eines Unterneh-
mens zu ermöglichen und die Umsätze und die Kundenzufriedenheit
positiv zu beeinflussen.
2. Sicherheit und Governance – Aufgrund der Vielzahl von Daten, die in
einem Datenlake gespeichert sind, muss der Bereich Sicherheit und
Governance die Risiken berücksichtigen, die mit der Zusammenführung
und Analyse von Daten außerhalb traditioneller organisatorischer Rollen
oder Workflows verbunden sind.
3. Beurteilung des Anwendungsportfolios – Jedes Datenlake-Projekt
sollte eine Evaluierung der Anwendungen unter dem Gesichtspunkt der
Datennutzung beinhalten, einschließlich der Dokumentation zur Evalu-
ierung der Quelle von Datensätzen.
4. Anwendungsmigration – Bei einem Datenlake ist der Aufwand für die
Migration von Anwendungen sehr gering. Der Schwerpunkt liegt viel-
mehr auf der Implementierung neuer Funktionen zur Unterstützung des
Datenlakes und der Integration in bestehende Systeme.
5. DevOps – Bei einem Datenlake ermöglichen DevOps-Modelle jedem
Benutzer im Unternehmen, analytische Modelle zu entwickeln und auf
ein Repository mit kuratierten Daten über das Unternehmen zuzugrei-
fen. Sie können so ihre Geschäftstätigkeit effektiv verwalten und Theo-
rien testen.
6. CloudOps – Bei Datenlakes gibt es viele bewegliche Teile und miteinan-
der verbundene Systeme. Zuverlässige CloudOps-Modelle für Überwa-
chung, Reaktionen, Ereignismanagement und Mitarbeiterschulungen
sorgen für Stabilität. CloudOps beinhaltet auch Elemente zur Kostenkon-
trolle, um sicherzustellen, dass die Services ordnungsgemäß gestartet
und gestoppt werden und dass die Kosten vom Management überwacht
werden. So soll sichergestellt werden, dass sie mit den Unternehmens-
zielen und dem Return on Investment übereinstimmen.
7. DataOps – Die Datenqualität ist bei einem Datenlake von größter
Bedeutung, um sicherzustellen, dass Entscheidungen und Empfehlungen
auf wahren Angaben beruhen. DataOps, einschließlich Metadaten-Ma-
nagement, Datenverknüpfung, Qualität, Kuratierung und Archivierung,
sind bei allen Datenlake-Implementierungen wesentliche Elemente.
Datenqualität und -modellierung
Die Hauptfunktion eines Datenlakes besteht darin, ein zentrales Repository
mit verschiedenen Datensätzen bereitzustellen, das leicht zugänglich und sich
durch eine hohe Qualität und Integrität auszeichnet. Die Datenqualität steht
an erster Stelle, ebenso wie die Möglichkeit, Datensätze und zugehörige Daten
einfach zu finden. Es gibt eine Vielzahl von Best Practices, die als Maß für die
Datenqualität innerhalb eines Datenlakes verwendet werden können:
Schema beim Lesen – Aufgrund der Vielfalt der Workloads und Analysemuster
in einem Datenlake sollten alle Schemata beim Lesen angewendet werden.
Dieses Modell für ein Schema beim Lesen gewährleistet, dass jeder Analyst
seine Datenansichten und Beziehungen optimieren kann.
SOMMER 2016 | THE DOPPLER | 45