modèle très caractéristique réside dans l ' écriture du code d ' assimilation pour le lac de données , et dans l ' utilisation des clusters transitoires AWS EMR ou des fonctions AWS Lambda pour déclencher la mise à jour automatique des données vers d ' autres moteurs de persistance .
AWS
Pipeline de données AWS
Requêtes ad hoc
Base de données |
Server |
Fichiers extraits Amazon S3 |
Cluster Amazon EMR ETL |
Données transformées Amazon S3 |
Amazon Redshift |
Sur site Cloud AWS
Analyses de veille stratégique
Figure�6� : Un exemple d ' automatisation dans le cloud AWS
Le schéma ci-dessus , tiré de la documentation du Big Data AWS , illustre le chargement de données sur site vers S3 , par le biais d ' un cluster EMR transitoire pour une transformation ultérieure jusqu ' au chargement éventuel dans S3 .
Formats de fichiers et performances
Dans le monde de l ' informatique distribuée faisant appel aux clusters , le choix du format de fichier peut être crucial . L ' idée de base est d ' utiliser des formats de fichiers fractionnables et compressibles qui peuvent être fractionnés et traités dans différents nœuds et transférés au format compressé sur le réseau . Avro , Parquet et ORC sont maintenant tous des noms de format de fichier familiers , mais tous les formats de fichier ne se valent pas . D ' après notre expérience , Apache Hive est beaucoup plus performant lorsque les données sont stockées au format ORC . D ' autre part , Apache Impala a une préférence pour Parquet .
Opportunité dans la complexité
Le pouvoir de transformation des technologies cloud apporte une immense valeur ajoutée aux solutions analytiques avancées qui bénéficient à l ' entreprise moderne . Mais avec un tel pouvoir est synonyme de responsabilité : celle d ' analyser soigneusement la complexité du monde de l ' entreposage de données héritées ; d ' établir une solide stratégie de cloud hybride pour faire évoluer et moderniser l ' infrastructure analytique ; de gérer efficacement le changement et enfin de faire économiser des millions de dollars à votre entreprise dans le processus .
Dans les articles suivants de cette série , nous examinerons plus en détail des technologies et solutions spécifiques .
PRINTEMPS 2017 | THE DOPPLER | 29