The Doppler Quarterly (FRANÇAIS) L'automne 2017

Cet article met l ’ accent sur la valeur commerciale que présente un entrepôt de données Big Data exploité sous Apache Hive , en précisant les pointeurs nécessaires en termes d ’ architecture , de conception et de mise en œuvre des meilleures pratiques pour mettre en place un tel système .

Entreposage de données Big Data

L ’ ère de l ’ entreposage de données est-elle révolue� ? Ou a-t-elle encore de beaux jours devant elle� ?

Chaque organisation de grande taille possède une énorme quantité de données historiques emmagasinées dans des bases de données relationnelles sous forme d ’ entrepôts de données et autres « data marts ». Ces lieux d ’ entreposage sont à la base des fonctions de reporting et d ’ analytique en lien avec la Business Intelligence . Même lorsqu ’ une organisation se lance dans une transition de ses mégadonnées dans le cloud , il n ’ est pas toujours judicieux de recréer le même entrepôt de données dans ce nouvel environnement . Au lieu de cela , la plupart des organisations optent pour une utilisation par tranches spécifiques de leur entrepôt de données hérité lorsque des structures dénormalisées apparentées à entrepôt de données relationnelles sont nécessaires , puis les activent dans le cloud dans un deuxième temps par le biais de technologies additionnelles . Si votre organisation dispose de ressources bien formées au langage SQL ( et c ’ est sûrement le cas !), il convient d ’ envisager Apache Hive . Apache Hive à la rescousse

Apache Hive , initialement développé par Facebook , est une solution d ’ entrepôt de données Big Data très populaire . Elle est dotée d ’ une interface SQL qui permet d ’ interroger les données stockées dans le système de fichiers Hadoop distribué ( HDFS ) ou dans Amazon S3 ( fonction d ’ AWS ) par le biais d ’ une couche d ’ abstraction de type HDFS appelée EMRFS ( Elastic MapReduce File System ).

Apache Hive sur les clusters EMR

La fonction Amazon EMR ( Elastic MapReduce ) fournit un cadre géré Hadoop organisé en clusters qui facilite , accélère et rentabilise le traitement de grandes quantités de données entre des instances Amazon EC2 dynamiquement extensibles . Apache Hive s ’ exécute sur des clusters Amazon EMR et interagit avec les données stockées sous Amazon S3 . Un cluster EMR typique comporte un nœud maître , un ou plusieurs nœuds de base , ainsi que des nœuds de tâche optionnels dotés d ’ un ensemble de solutions logicielles capables d ’ exécuter le traitement parallèle distribué de données à l ’ échelle .

Sélection de logiciel dans un cluster EMR et sous Apache Tez

Vous avez le choix d ’ installer ou non Apache Tez sur un cluster EMR en même temps qu ’ Apache Hive . Traditionnellement , le traitement sous Hive est pris en charge par le moteur d ’ exécution MapReduce , qui a besoin de réin-

Cluster Amazon EMR

Amazon RDS

Agent autonome

Amazon S3

Nœud principal

Nœud esclave

Fichiers XML Bucket 2

Fichiers JSON Bucket 3

Nœud esclave

Fichiers CSV Bucket 1

Figure 1� : Hive sur un cluster AWS EMR

AUTOMNE 2017 | THE DOPPLER | 25

The Doppler Quarterly (FRANÇAIS) L'automne 2017 | Page 27