The Doppler Quarterly (FRANÇAIS) Été 2017

Amazon S3

Amazon Cognito

Amazon DynamoDB

Amazon S3 ( console de lac de données )

AWS Lambda ( gestionnaire des autorisations personnalisé )

Amazon ES

Journaux Amazon CloudWatch

Amazon API Gateway ( API compatible REST de lac de données )

AWS Lambda ( micro-services de lac de données )

Interface en lignes de commande de lac de données ( accès API compatible REST )

Rôles de gestion des identités et des accès

Figure 3� : Un exemple d ’ architecture proposé par AWS pour le stockage des métadonnées d ’ un lac de données

qui stocke les attributs de données dans une base de données DynamoDB . Le catalogue basé sur DynamoDB qui en résulte peut être indexé par Elasticsearch , permettant ainsi aux utilisateurs de l ’ entreprise de rechercher du texte .

AWS Glue , un produit qui doit sortir sous peu , fournit un ensemble d ’ outils automatisés pour la prise en charge de fonctionnalités de catalogue des sources de données . AWS Glue peut parcourir les sources de données et élaborer un catalogue à l ’ aide de classificateurs préconfigurés pour de nombreux formats et types de données populaires , notamment JSON , CSV , Parquet et plus encore . Voilà un outil qui offre un potentiel prometteur pour les implémentations d ’ entreprise .

Nous recommandons à nos clients de faire des catalogues de données un point central de l ’ implémentation des lacs de données .

Accès et exploitation du lac Schéma à la lecture

Le « schéma à l ’ écriture » constitue le modèle de référence pour le nettoyage , la transformation et l ’ ajout de schémas logiques aux données avant leur stockage dans une base de données relationnelle « structurée ». Cependant , comme nous l ’ avons déjà remarqué , les lacs de données sont construits sur un modèle radicalement différent de « schéma à la lecture » qui empêche la banque de données primaires d ’ être verrouillée dans un schéma prédéfini . Les données sont stockées dans un format brut ou légèrement traité , et chaque outil d ’ analyse peut donc imposer à un ensemble de données le sens commercial le plus adapté au contexte de l ’ analyse . Cette approche offre de nombreux avantages , et permet notamment l ’ accès de divers outils aux données , pour des objectifs variés .

Traitement de données

Une fois la couche brute de données immuables installée dans le lac , il vous faudra créer plusieurs couches de données traitées pour permettre divers cas d ’ utilisation pour l ’ entreprise . Voici des exemples de stockage structuré tel qu ’ on l ’ a décrit plus haut . Les opérations classiques nécessaires à la création de ces banques de données structurées incluent :

• La combinaison de différents ensembles de données

• La dénormalisation

• Le nettoyage , la déduplication , la fusion d ’ enregistrements

• La dérivation de champs de données traitées

Apache Spark est devenu l ’ outil de référence pour le traitement de la couche de données brutes afin de créer diverses couches de données structurées à valeur ajoutée .

Entreposage de données

Pour certains cas d ' utilisation spécialisés ( comme les entrepôts de données hautes performances ), il peut être nécessaire de lancer des requêtes SQL sur des pétaoctets de données et de renvoyer très rapidement des résultats d ’ analyse complexes . Dans ces situations , il

18 | THE DOPPLER | ÉTÉ 2017

The Doppler Quarterly (FRANÇAIS) Été 2017 | Page 20