The Doppler Quarterly (DEUTSCHE) Frühjahr 2017 | Page 29
Hybrid Cloud
Wir empfehlen selbst Unternehmen, die sich voll und ganz der Cloud-Einfüh-
rung verschrieben haben, zu Beginn einen hybriden Ansatz. Der erste Schritt
ist die klare Segmentierung des aktuellen Systems in eine Reihe gut definierter
Workloads, die bestimmten Nutzern zugeordnet sind. Es ist nicht ratsam, alle
Workloads auf einmal in die Cloud zu migrieren, selbst wenn Sie einfache „Lift-
and-shift“-Verfahren bevorzugen. Das CTP-Programm für die Cloud-Einfüh-
rung umfasst eine präskriptive Roadmap, die detailliert aufführt, wie Ihre
Workloads systematisch in die Cloud gebracht werden. Wir empfehlen, anfangs
absichtlich einen hybriden Ansatz zu verfolgen, während Sie sich noch mit den
Änderungen vertraut machen, entsprechend hinzulernen und sich mit dem
Change Management beschäftigen.
Unternehmensorientierter Data Lake
Unsere früheren Ausführungen zum Thema „Schema-on-Read“ (wobei meh-
rere Analyseengines ein Schema ihrer Wahl beim Lesen der Daten anwenden)
führen in logischer Folge zum Konzept eines unternehmensorientierten Data
Lake. In einem solchen Data Lake können Unternehmensdaten strukturierter
und unstrukturierter Art gesammelt und gespeichert werden, ohne sich
Gedanken um irgendeine weitere Strukturierung machen zu müssen.
Der unternehmensorientierte Data Lake basiert in der Regel auf einem Hadoop
Distributed File System (HDFS), das die parallele und verteilte Berechnung
gewaltiger Datenmengen ermöglicht und entsprechend dem Unternehmens-
und Datenwachstum skalierbar ist.
Abbildung 4: Microsoft Azure Data Lake
Flüchtige Cluster
Bei der Migration von großen On-Premise-Clustern mit großen MPP-Maschi-
nen in eine Cloud-basierte Infrastruktur sollten wir keine langfristigen, stets
verfügbaren Cluster anstreben, solange sie nicht absolut notwendig sind. Bei
den meisten hoch entwickelten Nutzungsszenarien für Unternehmensdaten –
insbesondere Data-Science-Workloads – sind wir nur am Endergebnis der
Analyse interessiert. Die Cloud bietet einfache Nutzung und entsprechende
Kosteneinsparungen, da Sie damit automatisch einen massiven Cluster star-
ten, die Ergebnisse berechnen und den Cluster nach Abschluss des Jobs wieder
beenden können. Die Ergebnisse lassen sich von Berichts- oder Dash-
board-Tools zur weiteren Analyse oder umfassenderen Berichterstellung
nutzen.
FRÜHJAHR 2017 | THE DOPPLER | 27