The Doppler Quarterly (DEUTSCHE) Sommer 2016 - Page 40

Algorithmen für maschinelles Lernen weiterentwickeln , um Gruppierungen vorherzusagen und neue Daten gemäß dieser Vorhersagen zu benennen
Unbekannte auf der Basis von
Beziehungen schätzen
Zentrale Entitätsbeziehungen erkennen
Abbildung 4 : Prozess beim maschinellen Lernen
Maschinelles Lernen ist eine Reihe aufeinanderfolgender Schritte zur Nutzung eines bekannten , analysierten Datensatzes , um spezielle Modelle für die zukünftige Ausführung bei unbekannten Datensätzen zu entwickeln . In Abbildung 4 sind die typischen Schritte dargestellt , mit denen Datenwissenschaftler bei der Verwendung von Funktionen für maschinelles Lernen die notwendigen Modelle entwickeln . Sobald die Modelle entwickelt sind , können sie in Verbindung mit einer Vielzahl von Analysetools wie R , SAS und Open Source-Tools , die in Python geschrieben wurden , eingesetzt werden .
Cloudbasierte Datenlakes bieten den zusätzlichen Vorteil , dass sie Funktionen für maschinelles Lernen über eine Plattform nutzen können . Anbieter , z . B . AWS und Google , stellen eine Vielzahl entwickelter Modelle zur sofortigen Verwendung mit Datensätzen zur Verfügung und bieten die Möglichkeit , benutzerdefinierte Modelle zur Verwendung mit proprietären Datensätzen zu entwickeln . Sowohl AWS als auch Google haben Varianten der Technologien für maschinelles Lernen implementiert , die sie intern über viele Jahre hinweg eingesetzt und weiterentwickelt haben .
Architektur
Die technische Architektur eines Datenlakes muss mit den vorherrschenden Anwendungsfällen , die auf der Plattform ausgeführt werden , übereinstimmen . Die wichtigsten Faktoren bei der Konzeption einer Datenlake-Lösung sind folgende :
• Anwendungsfälle – Die frühzeitige Identifizierung der Anwendungsfälle und Workloads für den Datenlake ermöglicht die richtige Priorisierung verschiedener Analyse-Engines , Überlegungen zur Skalierbarkeit und Datenintegrationspunkte .
• Operative Aspekte – Bei der Datenlake-Architektur sollten die notwendigen Tools für Überwachung und Gegenmaßnahmen berücksichtigt werden . Außerdem muss festgelegt werden , welche Technologien eingesetzt werden , um sicherzustellen , dass das System von der IT-Organisation im Unternehmen gewartet werden kann .
• Skalierbarkeit und Leistung – Die Verwendung des Datenlakes weitet sich aus , wenn Ihr Unternehmen expandiert und sich weiterentwickelt . Bei frühzeitigen Entscheidungen für eine Technologie sollte beachtet werden , ob sich die Technologie ohne Austausch skalieren lässt .
Diese drei wichtigsten Aspekte werden dann zu mehreren zentralen Elementen bei der Konzeption eines Datenlakes :
38 | THE DOPPLER | SOMMER 2016
Algorithmen für maschinelles Lernen weiterentwickeln, um Gruppierungen vorher- zusagen und neue Daten gemäß dieser Vorhersagen zu benennen Unbekannte auf der Basis von Beziehungen schätzen Zentrale Entitätsbeziehungen erkennen Abbildung 4: Prozess beim maschinellen Lernen Maschinelles Lernen ist eine Reihe aufeinanderfolgender Schritte zur Nutzung eines bekannten, analysierten Datensatzes, um spezielle Modelle für die zukünftige Ausführung bei unbekannten Datensätzen zu entwickeln. In Abbil- dung 4 sind die typischen Schritte dargestellt, mit denen Datenwissenschaftler bei der Verwendung von Funktionen für maschinelles Lernen die notwendigen Modelle entwickeln. Sobald die Modelle entwickelt sind, können sie in Verbin- dung mit einer Vielzahl von Analysetools wie R, SAS und Open Source-Tools, die in Python geschrieben wurden, eingesetzt werden. Cloudbasierte Datenlakes bieten den zusätzlichen Vorteil, dass sie Funktionen für maschinelles Lernen über eine Plattform nutzen können. Anbieter, z. B. AWS und Google, stellen eine Vielzahl entwickelter Modelle zur sofortigen Ver- wendung mit Datensätzen zur Verfügung und bieten die Möglichkeit, benut- zerdefinierte Modelle zur Verwendung mit proprietären Datensätzen zu ent- wickeln. Sowohl AWS als auch Google haben Varianten der Technologien für maschinelles Lernen implementiert, die sie intern über viele Jahre hinweg ein- gesetzt und weiterentwickelt haben. Architektur Die technische Architektur eines Datenlakes muss mit den vorherrschenden Anwendungsfällen, die auf der Plattform ausgeführt werden, übereinstimmen. Die wichtigsten Faktoren bei der Konze ѥȁѕ3չͥ)+$ݕչ͛L镥ѥ%ѥ饕չȁݕչ̴)չ]ɭ́ȁѕɷٝЁɥѥAɥɥͥ)չٕ͍ȁ͔̰qɱչȁMɉɭ)չѕѕɅѥչє+$=ɅѥٔєL ȁѕɍѕȁͽѕд)ݕQ́ȃq݅չչ}ͥѥ)ݕɑ}ɑ́ѝЁݕɑݕQ)͕Ёݕɑմͥѕ́́Mѕٽȁ%P=ɝ̈́)ѥUѕɹ݅ѕЁݕɑ+$MɉɭЁչ1չLYݕչ́ѕ́ݕѕ)̰ͥݕ%ȁUѕɹЁչͥݕѕɕݥи) 镥ѥ͍չȁQͽєѕ)ݕɑͥQх͍ͭɕи)͔ɕݥѥѕєݕɑԁɕɕ镹Ʌ)ѕȁ-ѥ́ѕ(Q!=AA1HM=55H