The Doppler Quarterly (DEUTSCHE) Sommer 2016

Datennutzer AWS-basierter Datenlake Vorhersageanalysen AWS Machine Learning Datenverarbeitung im Datenlake Dashboards Datenspeicherung und -wieder- herstellung im Datenlake Metadaten Governance- Richtlinien Datenwissenschaft ETL-Engine Regeln/Abgleich- Engine E-Commerce Spark QuickSight Mobile Apps Datenintegration S3 Glacier Abbildung 7: In AWS gehostete Datenlake-Architektur Zu den wichtigsten Datenlake-Technologien und -Funktionen von AWS gehören: Operative Aspekte • CloudFormations – AWS stellt CloudFormations zur Verfügung, eine automatisierte Methode, um Services und Konfigurationen wiederholbar bereitzustellen. Skalierbarkeit und Leistung • IDM – AWS bietet erstklassige Funktionen für das Identitäts- und Zugriffsmanagement für das gesamte Cloud-Portfolio, sowie die Mög- lichkeit der Integration in bestehende LDAP- oder Active Directory-Inf- rastrukturen. Dadurch sind einheitliche Berechtigungen über alle Daten- zugriffsmethoden hinweg gewährleistet. Datenzugriff und -abruf • S3 – S3 ist die Objektspeicherplattform für AWS und stellt eine einfache API für die Speicherung und den Abruf von Daten zur Verfügung. • Redshift – Redshift ist die unternehmensweite AWS Data Warehouse-Plattform. Sie bietet einen schnellen analytischen Zugriff auf große und komplexe Datensätze. Redshift ist eine PaaS-Funktion, die einen geringen operativen Mehraufwand gewährleistet. • EMR – Elastic MapReduce ist eine AWS-Implementierung von MapRe- duce, die eine umfassend skalierbare Batch-Verarbeitung von Daten ermöglicht, die zur Abfrage und Analyse an andere Systeme gesendet werden. SOMMER 2016 | THE DOPPLER | 43

The Doppler Quarterly (DEUTSCHE) Sommer 2016 | Page 45