The Doppler Quarterly (DEUTSCHE) Frühjahr 2017 - Page 31

Abbildung 6: Beispiel für die Automatisierung in der AWS-Cloud Das vorstehende Diagramm aus der Big-Data-Dokumentation von AWS illust- riert das Laden von Daten aus einer On-Premise-Umgebung in S3. Dabei kommt ein temporärer EMR-Cluster für die weitere Transformation bis zum letztendlichen Laden in S3 zum Einsatz. Dateiformate und Leistung In der Welt der verteilten Datenverarbeitung über Cluster kann die Wahl des Dateiformats entscheidend sein. Das zentrale Konzept ist die Verwendung von unterteilbaren und komprimierbaren Dateiformaten, die sich aufteilen und in verschiedenen Nodes verarbeiten lassen sowie in komprimiertem Zustand über das Netzwerk übertragen werden. Avro, Parquet und ORC sind inzwi- schen vertraute Dateiformate. Doch die unterschiedlichen Dateiformate sind nicht alle gleich. Unserer Erfahrung nach bietet Apache Hive eine sehr viel bes- sere Leistung, wenn die Daten im ORC-Format gespeichert sind. Auf der ande- ren Seite eignet sich Apache Impala besser für Parquet. Chancen durch Komplexität Die Möglichkeiten, die Ihnen Cloud-Technologien bei der Transformation bie- ten, sind mit gewaltigem Nutzen für hoch entwickelte Analyselösungen ver- bunden. Davon profitieren moderne Unternehmen. Mit so vielen Möglichkeiten ist aber auch eine Verantwortung verbunden – die Verantwortung, die Kom- plexität im bestehenden Data-Warehousing-Umfeld zu analysieren, eine solide Hybrid-Cloud-Strategie zu formulieren, um die Analyseinfrastruktur weiter- zuentwickeln und zu modernisieren, sowie ein effektives Change-Manage- ment zu verfolgen. Am Ende kann Ihr Unternehmen von Einsparungen in Millionenhöhe profitieren. In späteren Artikeln dieser Reihe werden wir uns eingehender mit einzelnen Technologien und Lösungen beschäftigen. FRÜHJAHR 2017 | THE DOPPLER | 29