The Doppler Quarterly (FRANÇAIS) Printemps 2017 | Page 31

modèle très caractéristique réside dans l ' écriture du code d ' assimilation pour le lac de données , et dans l ' utilisation des clusters transitoires AWS EMR ou des fonctions AWS Lambda pour déclencher la mise à jour automatique des données vers d ' autres moteurs de persistance .
AWS
Pipeline de données AWS
Requêtes ad hoc
Base de données
Server
Fichiers extraits Amazon S3
Cluster Amazon EMR ETL
Données transformées Amazon S3
Amazon Redshift
Sur site Cloud AWS
Analyses de veille stratégique
Figure�6� : Un exemple d ' automatisation dans le cloud AWS
Le schéma ci-dessus , tiré de la documentation du Big Data AWS , illustre le chargement de données sur site vers S3 , par le biais d ' un cluster EMR transitoire pour une transformation ultérieure jusqu ' au chargement éventuel dans S3 .
Formats de fichiers et performances
Dans le monde de l ' informatique distribuée faisant appel aux clusters , le choix du format de fichier peut être crucial . L ' idée de base est d ' utiliser des formats de fichiers fractionnables et compressibles qui peuvent être fractionnés et traités dans différents nœuds et transférés au format compressé sur le réseau . Avro , Parquet et ORC sont maintenant tous des noms de format de fichier familiers , mais tous les formats de fichier ne se valent pas . D ' après notre expérience , Apache Hive est beaucoup plus performant lorsque les données sont stockées au format ORC . D ' autre part , Apache Impala a une préférence pour Parquet .
Opportunité dans la complexité
Le pouvoir de transformation des technologies cloud apporte une immense valeur ajoutée aux solutions analytiques avancées qui bénéficient à l ' entreprise moderne . Mais avec un tel pouvoir est synonyme de responsabilité : celle d ' analyser soigneusement la complexité du monde de l ' entreposage de données héritées ; d ' établir une solide stratégie de cloud hybride pour faire évoluer et moderniser l ' infrastructure analytique ; de gérer efficacement le changement et enfin de faire économiser des millions de dollars à votre entreprise dans le processus .
Dans les articles suivants de cette série , nous examinerons plus en détail des technologies et solutions spécifiques .
PRINTEMPS 2017 | THE DOPPLER | 29