The Doppler Quarterly (DEUTSCHE) Herbst 2017

Dieser Artikel konzentriert sich auf den geschäftlichen Nutzen eines Big-Data-Warehouse mit Apache Hive und liefert Hinweise auf Archi- tektur, Design und Implementierung von Best Practices, die für die Imple- mentierung eines solchen Systems erforderlich sind. Big-Data-Warehousing Ist Data-Warehousing wirklich tot? Oder heißt es: Lang lebe Data- Warehousing? Jedes große Unternehmen verfügt über eine enorme Menge historischer Daten, die in relationalen Daten- banken in Form von Data-Warehouses und Data- Marts gebunden sind. Diese Data-Warehouses sind die eigentlichen „Arbeitspferde“ hinter den Business Intelligence-Berichten und -Analysen. Selbst wenn ein Unternehmen große Datenmengen in die Cloud verlagern will, ist es nicht ratsam, das Data- Warehouse in der Cloud neu zu erstellen. Die meisten Unternehmen erstellen stattdessen fallbezogene Teile des vorhandenen Data-Warehouse, wenn relatio- nale, mit einem Data-Warehouse vergleichbare denormalisierte Strukturen benötigt werden, und aktivieren diese dann über zusätzliche Technologien in der Cloud. Wenn Ihr Unternehmen über leistungs- fähige, SQL-geschulte Ressourcen verfügt (was man eigentlich voraussetzen kann), sollten Sie Apache Hive in Betracht ziehen. Apache Hive als Rettungsanker Apache Hive, ursprünglich von Facebook entwickelt, ist eine beliebte große Big-Data-Warehouse-Lösung. Die Lösung bietet eine SQL-Schnittstelle zur Abfrage von Daten, die im Hadoop Distributed File System (HDFS) oder in Amazon S3 (eine AWS-Implementie- rung) gespeichert sind. Hierbei kommt eine HDFS-ähnliche Abstraktionsschicht namens EMRFS (Elastic MapReduce File System) zum Einsatz. Apache Hive auf EMR-Clustern Amazon Elastic MapReduce (EMR) stellt ein Clus- ter-basiertes Managed Hadoop-Framework zur Ver- fügung, mit dem auf einfache, schnelle und kosten- günstige Weise große Datenmengen über dynamisch skalierbare Amazon EC2-Instanzen hinweg verarbei- tet werden können. Apache Hive läuft auf Amazon EMR-Clustern und interagiert mit in Amazon S3 gespeicherten Daten. Ein typischer EMR-Cluster besteht aus einem Masterknoten, einem oder mehre- ren Kernknoten und optionalen Aufgabenknoten. Hinzu kommt eine Reihe von Softwarelösungen, mit denen Daten verteilt und parallel verarbeitet werden können. Amazon EMR Cluster Standalone- Agent Amazon RDS Amazon S3 Masterknoten Slave- knoten Slave- knoten Slave- knoten Slave- knoten Bucket 1 – CSV- Dateien Bucket 2 – XML- Dateien Bucket 3 – JSON- Dateien Abbildung 1: Hive auf AWS EMR Cluster HERBST 2017 | THE DOPPLER | 25

The Doppler Quarterly (DEUTSCHE) Herbst 2017 | Page 27