The Doppler Quarterly (DEUTSCHE) Frühjahr 2017 - Page 29

Hybrid Cloud Wir empfehlen selbst Unternehmen, die sich voll und ganz der Cloud-Einfüh- rung verschrieben haben, zu Beginn einen hybriden Ansatz. Der erste Schritt ist die klare Segmentierung des aktuellen Systems in eine Reihe gut definierter Workloads, die bestimmten Nutzern zugeordnet sind. Es ist nicht ratsam, alle Workloads auf einmal in die Cloud zu migrieren, selbst wenn Sie einfache „Lift- and-shift“-Verfahren bevorzugen. Das CTP-Programm für die Cloud-Einfüh- rung umfasst eine präskriptive Roadmap, die detailliert aufführt, wie Ihre Workloads systematisch in die Cloud gebracht werden. Wir empfehlen, anfangs absichtlich einen hybriden Ansatz zu verfolgen, während Sie sich noch mit den Änderungen vertraut machen, entsprechend hinzulernen und sich mit dem Change Management beschäftigen. Unternehmensorientierter Data Lake Unsere früheren Ausführungen zum Thema „Schema-on-Read“ (wobei meh- rere Analyseengines ein Schema ihrer Wahl beim Lesen der Daten anwenden) führen in logischer Folge zum Konzept eines unternehmensorientierten Data Lake. In einem solchen Data Lake können Unternehmensdaten strukturierter und unstrukturierter Art gesammelt und gespeichert werden, ohne sich Gedanken um irgendeine weitere Strukturierung machen zu müssen. Der unternehmensorientierte Data Lake basiert in der Regel auf einem Hadoop Distributed File System (HDFS), das die parallele und verteilte Berechnung gewaltiger Datenmengen ermöglicht und entsprechend dem Unternehmens- und Datenwachstum skalierbar ist. Abbildung 4: Microsoft Azure Data Lake Flüchtige Cluster Bei der Migration von großen On-Premise-Clustern mit großen MPP-Maschi- nen in eine Cloud-basierte Infrastruktur sollten wir keine langfristigen, stets verfügbaren Cluster anstreben, solange sie nicht absolut notwendig sind. Bei den meisten hoch entwickelten Nutzungsszenarien für Unternehmensdaten – insbesondere Data-Science-Workloads – sind wir nur am Endergebnis der Analyse interessiert. Die Cloud bietet einfache Nutzung und entsprechende Kosteneinsparungen, da Sie damit automatisch einen massiven Cluster star- ten, die Ergebnisse berechnen und den Cluster nach Abschluss des Jobs wieder beenden können. Die Ergebnisse lassen sich von Berichts- oder Dash- board-Tools zur weiteren Analyse oder umfassenderen Berichterstellung nutzen. FRÜHJAHR 2017 | THE DOPPLER | 27