The Doppler Quarterly (DEUTSCHE) Herbst 2017 | Page 27
Dieser Artikel konzentriert sich auf
den geschäftlichen Nutzen eines
Big-Data-Warehouse mit Apache
Hive und liefert Hinweise auf Archi-
tektur, Design und Implementierung
von Best Practices, die für die Imple-
mentierung eines solchen Systems
erforderlich sind.
Big-Data-Warehousing
Ist Data-Warehousing wirklich tot? Oder heißt
es: Lang lebe Data- Warehousing?
Jedes große Unternehmen verfügt über eine enorme
Menge historischer Daten, die in relationalen Daten-
banken in Form von Data-Warehouses und Data-
Marts gebunden sind. Diese Data-Warehouses sind
die eigentlichen „Arbeitspferde“ hinter den Business
Intelligence-Berichten und -Analysen. Selbst wenn
ein Unternehmen große Datenmengen in die Cloud
verlagern will, ist es nicht ratsam, das Data-
Warehouse in der Cloud neu zu erstellen. Die meisten
Unternehmen erstellen stattdessen fallbezogene
Teile des vorhandenen Data-Warehouse, wenn relatio-
nale, mit einem Data-Warehouse vergleichbare
denormalisierte Strukturen benötigt werden, und
aktivieren diese dann über zusätzliche Technologien
in der Cloud. Wenn Ihr Unternehmen über leistungs-
fähige, SQL-geschulte Ressourcen verfügt (was man
eigentlich voraussetzen kann), sollten Sie Apache
Hive in Betracht ziehen.
Apache Hive als Rettungsanker
Apache Hive, ursprünglich von Facebook entwickelt,
ist eine beliebte große Big-Data-Warehouse-Lösung.
Die Lösung bietet eine SQL-Schnittstelle zur Abfrage
von Daten, die im Hadoop Distributed File System
(HDFS) oder in Amazon S3 (eine AWS-Implementie-
rung) gespeichert sind. Hierbei kommt eine
HDFS-ähnliche Abstraktionsschicht namens EMRFS
(Elastic MapReduce File System) zum Einsatz.
Apache Hive auf EMR-Clustern
Amazon Elastic MapReduce (EMR) stellt ein Clus-
ter-basiertes Managed Hadoop-Framework zur Ver-
fügung, mit dem auf einfache, schnelle und kosten-
günstige Weise große Datenmengen über dynamisch
skalierbare Amazon EC2-Instanzen hinweg verarbei-
tet werden können. Apache Hive läuft auf Amazon
EMR-Clustern und interagiert mit in Amazon S3
gespeicherten Daten. Ein typischer EMR-Cluster
besteht aus einem Masterknoten, einem oder mehre-
ren Kernknoten und optionalen Aufgabenknoten.
Hinzu kommt eine Reihe von Softwarelösungen, mit
denen Daten verteilt und parallel verarbeitet werden
können.
Amazon EMR Cluster
Standalone-
Agent
Amazon RDS
Amazon S3
Masterknoten
Slave-
knoten
Slave-
knoten
Slave-
knoten
Slave-
knoten
Bucket 1
– CSV-
Dateien
Bucket 2
– XML-
Dateien
Bucket 3
– JSON-
Dateien
Abbildung 1: Hive auf AWS EMR Cluster
HERBST 2017 | THE DOPPLER | 25