The Doppler Quarterly (FRANÇAIS) L'automne 2017 | Page 27

Cet article met l ’ accent sur la valeur commerciale que présente un entrepôt de données Big Data exploité sous Apache Hive , en précisant les pointeurs nécessaires en termes d ’ architecture , de conception et de mise en œuvre des meilleures pratiques pour mettre en place un tel système .
Entreposage de données Big Data
L ’ ère de l ’ entreposage de données est-elle révolue� ? Ou a-t-elle encore de beaux jours devant elle� ?
Chaque organisation de grande taille possède une énorme quantité de données historiques emmagasinées dans des bases de données relationnelles sous forme d ’ entrepôts de données et autres « data marts ». Ces lieux d ’ entreposage sont à la base des fonctions de reporting et d ’ analytique en lien avec la Business Intelligence . Même lorsqu ’ une organisation se lance dans une transition de ses mégadonnées dans le cloud , il n ’ est pas toujours judicieux de recréer le même entrepôt de données dans ce nouvel environnement . Au lieu de cela , la plupart des organisations optent pour une utilisation par tranches spécifiques de leur entrepôt de données hérité lorsque des structures dénormalisées apparentées à entrepôt de données relationnelles sont nécessaires , puis les activent dans le cloud dans un deuxième temps par le biais de technologies additionnelles . Si votre organisation dispose de ressources bien formées au langage SQL ( et c ’ est sûrement le cas !), il convient d ’ envisager Apache Hive . Apache Hive à la rescousse
Apache Hive , initialement développé par Facebook , est une solution d ’ entrepôt de données Big Data très populaire . Elle est dotée d ’ une interface SQL qui permet d ’ interroger les données stockées dans le système de fichiers Hadoop distribué ( HDFS ) ou dans Amazon S3 ( fonction d ’ AWS ) par le biais d ’ une couche d ’ abstraction de type HDFS appelée EMRFS ( Elastic MapReduce File System ).
Apache Hive sur les clusters EMR
La fonction Amazon EMR ( Elastic MapReduce ) fournit un cadre géré Hadoop organisé en clusters qui facilite , accélère et rentabilise le traitement de grandes quantités de données entre des instances Amazon EC2 dynamiquement extensibles . Apache Hive s ’ exécute sur des clusters Amazon EMR et interagit avec les données stockées sous Amazon S3 . Un cluster EMR typique comporte un nœud maître , un ou plusieurs nœuds de base , ainsi que des nœuds de tâche optionnels dotés d ’ un ensemble de solutions logicielles capables d ’ exécuter le traitement parallèle distribué de données à l ’ échelle .
Sélection de logiciel dans un cluster EMR et sous Apache Tez
Vous avez le choix d ’ installer ou non Apache Tez sur un cluster EMR en même temps qu ’ Apache Hive . Traditionnellement , le traitement sous Hive est pris en charge par le moteur d ’ exécution MapReduce , qui a besoin de réin-
Cluster Amazon EMR
Amazon RDS
Agent autonome
Amazon S3
Nœud principal
Nœud esclave
Nœud esclave
Fichiers XML Bucket 2
Fichiers JSON Bucket 3
Nœud esclave
Nœud esclave
Fichiers CSV Bucket 1
Figure 1� : Hive sur un cluster AWS EMR
AUTOMNE 2017 | THE DOPPLER | 25