The Doppler Quarterly (FRANÇAIS) L'automne 2017 | Page 30

que HBase. La console d’administration d’Apache Ranger permet aux utilisateurs de gérer aisément les politiques de contrôle d’accès à une base de données, table ou col- onne Hive en les ciblant sur un ensemble spécifi que d’utilisateurs et/ou de groupes. Pour un contrôle plus approfondi de l’environnement, Apache Ranger permet également d’activer un suivi d’audit et des analyses de règles. détail, en mentionnant trois leviers supplémentaires qui peuvent améliorer considérablement les performances des requêtes dans Hive : l’exécution de requêtes vec- torisées (Vectorized Query Execution), l’optimiseur basé sur les coûts (Cost Based Optimizer) et enfi n, la procédure LLAP (Long Live and Process). Le contrôle de règles sous Apache Ranger se divise en deux grandes parties : En langue ourdou, le mot « tez » a le sens de rapide, agile et intelligent. Apache Tez est aujourd’hui le nouveau par- adigme de performance pour l’exécution de Hive en rai- son de sa capacité de traitement des requêtes inférieures à la seconde que ne permettait pas l’univers « MapReduce ». MapReduce est toujours pris en charge pour l’exécution de Hive, mais Tez est désormais le moteur par défaut lors de l’exécution de tâches Hive dans Hadoop. Comme mentionné auparavant, Tez restreint les E/S disque en évitant les accès randomisés et les raccourcis, tout en exploitant plus effi cacement les jointures latérales. Dans un modèle d’exécution typ- ique, les données transitent d’un nœud à l’autre dans un graphe d’exécution (à l’instar d’Apache Spark, Tez représente le calcul comme un graphe acyclique direct) ; les données intermédiaires du réducteur sont trans- mises au réducteur suivant sans qu’aucune écriture n’ait lieu sur le disque. Apache Tez bénéfi cie par conséquent de davantage de mémoire (en raison de la taille de seg- ment de HiveServer), ainsi que de la possibilité d’affi ner le paramétrage de celle-ci. Une meilleure pratique con- siste par exemple à défi nir la taille des conteneurs Tez sous forme de multiples de la taille du conteneur YARN. Vous trouverez de nombreuses discussions et recom- • Spécifi cation des ressources auxquelles la poli- tique s’applique (par exemple la base de données, les tables ou les colonnes Hive). • Spécifi cation des conditions, telles que les utilisa- teurs ou groupes, les types d’accès et les condi- tions personnalisées nécessitant un octroi d’accès. Optimisation des performances Hive Nous avons déjà parlé des trois éléments importants d’une mise en œuvre Apache Hive qui doivent être con- sidérés avec soin pour garantir des performances Apache Hive optimales. • Veillez à ce que Tez soit installé sur le cluster EMR et utilisé comme moteur d’exécution de Hive • Partitionnez les données de manière à éviter les balayages de tables • Utilisez le format de fi chier ORC pour le stockage sous-jacent Dans cette section, nous allons aborder Tez plus en Apache Hive sur Tez Administrateurs de sécurité Système d’entre- prise hérité Défi nition des règles Audit des activités utilisateur Services d’annuaire d’entreprise Authentifi cation Synchronisation des utilisateurs Accès aux données sur s les sys- tèmes Hadoop Utilisateurs d’entreprise Les modules plug-in autorisent l’accès et l’audit d’activité 28 | THE DOPPLER | AUTOMNE 2017 Serveur de syn- chronisation des utilisateurs Ranger Sync