The Doppler Quarterly (DEUTSCHE) Frühjahr 2017 | Page 31
Abbildung 6: Beispiel für die Automatisierung in der AWS-Cloud
Das vorstehende Diagramm aus der Big-Data-Dokumentation von AWS illust-
riert das Laden von Daten aus einer On-Premise-Umgebung in S3. Dabei
kommt ein temporärer EMR-Cluster für die weitere Transformation bis zum
letztendlichen Laden in S3 zum Einsatz.
Dateiformate und Leistung
In der Welt der verteilten Datenverarbeitung über Cluster kann die Wahl des
Dateiformats entscheidend sein. Das zentrale Konzept ist die Verwendung von
unterteilbaren und komprimierbaren Dateiformaten, die sich aufteilen und in
verschiedenen Nodes verarbeiten lassen sowie in komprimiertem Zustand
über das Netzwerk übertragen werden. Avro, Parquet und ORC sind inzwi-
schen vertraute Dateiformate. Doch die unterschiedlichen Dateiformate sind
nicht alle gleich. Unserer Erfahrung nach bietet Apache Hive eine sehr viel bes-
sere Leistung, wenn die Daten im ORC-Format gespeichert sind. Auf der ande-
ren Seite eignet sich Apache Impala besser für Parquet.
Chancen durch Komplexität
Die Möglichkeiten, die Ihnen Cloud-Technologien bei der Transformation bie-
ten, sind mit gewaltigem Nutzen für hoch entwickelte Analyselösungen ver-
bunden. Davon profitieren moderne Unternehmen. Mit so vielen Möglichkeiten
ist aber auch eine Verantwortung verbunden – die Verantwortung, die Kom-
plexität im bestehenden Data-Warehousing-Umfeld zu analysieren, eine solide
Hybrid-Cloud-Strategie zu formulieren, um die Analyseinfrastruktur weiter-
zuentwickeln und zu modernisieren, sowie ein effektives Change-Manage-
ment zu verfolgen. Am Ende kann Ihr Unternehmen von Einsparungen in
Millionenhöhe profitieren.
In späteren Artikeln dieser Reihe werden wir uns eingehender mit einzelnen
Technologien und Lösungen beschäftigen.
FRÜHJAHR 2017 | THE DOPPLER | 29