The Doppler Quarterly (DEUTSCHE) Sommer 2016 - Page 44

Datennutzer Google-basierter Datenlake Predictive API GoogleML Datenverarbeitung im Datenlake Pub/Sub Dashboards Datenspeicherung und -wieder- herstellung im Datenlake Governance- Richtlinien Datenwissenschaft ETL-Engine Regeln/Abgleich- Engine E-Commerce Streaming Analytics Metadaten BI Mobile Apps Datenintegration Google Cloud Storage Abbildung 6: In Google gehosteter Datenlake Zu den wichtigsten Datenlake-Technologien und -Funktionen von Google gehören: Operative Aspekte Pub/Sub – Pub/Sub bietet bei der gemeinsamen Nutzung von Daten zwi- schen Systemen und Tools ein nahtloses Erlebnis für den Entwickler. Skalierbarkeit und Leistung BigQuery – BigQuery bietet eine umfassend skalierbare Plattform für die Analyse von Datensätzen, die häufig sehr leseintensiv sind. BigQuery ist eine PaaS-Lösung, die zu einem geringen operativen Mehraufwand in der IT-Orga- nisation beiträgt. Datenzugriff und -abruf Google Cloud Storage – Google Cloud Storage ist eine Objektschnittstelle für die Speicherung von Verlauf- und Archivdaten. Hadoop on Google Compute Engine – Google bietet Lösungen mehrerer Anbie- ter für die Ausführung von Hadoop on Google Compute Engine. Diese können in einem Datenlake als skalierbare Batch-Verarbeitungsumgebung genutzt werden, die verarbeitete, vorbereitete Daten an andere Systeme, z. B. Big- Query, weiterleitet. Erweiterte Funktionen Google Machine Learning – Die Funktionen von Google Machine Learning bieten Entwicklern die Möglichkeit, vorab entwickelte Modelle zu nutzen und eigene Modelle für die schnelle Analyse von Daten zu entwickeln. Predictive API – Die Google Predictive API bietet die Möglichkeit, Muster in Daten schnell zu identifizieren, ohne dass zusätzliche Server oder Services in Anspruch genommen werden müssen. 42 | THE DOPPLER | SOMMER 2016