The Doppler Quarterly (FRANÇAIS) L'automne 2017 | Page 30
que HBase. La console d’administration d’Apache Ranger
permet aux utilisateurs de gérer aisément les politiques
de contrôle d’accès à une base de données, table ou col-
onne Hive en les ciblant sur un ensemble spécifi que
d’utilisateurs et/ou de groupes. Pour un contrôle plus
approfondi de l’environnement, Apache Ranger permet
également d’activer un suivi d’audit et des analyses de
règles. détail, en mentionnant trois leviers supplémentaires qui
peuvent améliorer considérablement les performances
des requêtes dans Hive : l’exécution de requêtes vec-
torisées (Vectorized Query Execution), l’optimiseur basé
sur les coûts (Cost Based Optimizer) et enfi n, la
procédure LLAP (Long Live and Process).
Le contrôle de règles sous Apache Ranger se divise en
deux grandes parties : En langue ourdou, le mot « tez » a le sens de rapide, agile
et intelligent. Apache Tez est aujourd’hui le nouveau par-
adigme de performance pour l’exécution de Hive en rai-
son de sa capacité de traitement des requêtes inférieures
à la seconde que ne permettait pas l’univers
« MapReduce ». MapReduce est toujours pris en charge
pour l’exécution de Hive, mais Tez est désormais le
moteur par défaut lors de l’exécution de tâches Hive
dans Hadoop. Comme mentionné auparavant, Tez
restreint les E/S disque en évitant les accès randomisés
et les raccourcis, tout en exploitant plus effi cacement
les jointures latérales. Dans un modèle d’exécution typ-
ique, les données transitent d’un nœud à l’autre dans un
graphe d’exécution (à l’instar d’Apache Spark, Tez
représente le calcul comme un graphe acyclique direct) ;
les données intermédiaires du réducteur sont trans-
mises au réducteur suivant sans qu’aucune écriture n’ait
lieu sur le disque. Apache Tez bénéfi cie par conséquent
de davantage de mémoire (en raison de la taille de seg-
ment de HiveServer), ainsi que de la possibilité d’affi ner
le paramétrage de celle-ci. Une meilleure pratique con-
siste par exemple à défi nir la taille des conteneurs Tez
sous forme de multiples de la taille du conteneur YARN.
Vous trouverez de nombreuses discussions et recom-
• Spécifi cation des ressources auxquelles la poli-
tique s’applique (par exemple la base de données,
les tables ou les colonnes Hive).
• Spécifi cation des conditions, telles que les utilisa-
teurs ou groupes, les types d’accès et les condi-
tions personnalisées nécessitant un octroi d’accès.
Optimisation des performances Hive
Nous avons déjà parlé des trois éléments importants
d’une mise en œuvre Apache Hive qui doivent être con-
sidérés avec soin pour garantir des performances
Apache Hive optimales.
• Veillez à ce que Tez soit installé sur le cluster EMR
et utilisé comme moteur d’exécution de Hive
• Partitionnez les données de manière à éviter les
balayages de tables
• Utilisez le format de fi chier ORC pour le stockage
sous-jacent
Dans cette section, nous allons aborder Tez plus en
Apache Hive sur Tez
Administrateurs de sécurité
Système d’entre-
prise hérité
Défi nition des règles
Audit des activités utilisateur
Services
d’annuaire
d’entreprise
Authentifi cation
Synchronisation
des utilisateurs
Accès aux
données
sur
s les sys-
tèmes
Hadoop
Utilisateurs
d’entreprise
Les modules plug-in
autorisent l’accès et
l’audit d’activité
28 | THE DOPPLER | AUTOMNE 2017
Serveur de syn-
chronisation des
utilisateurs Ranger
Sync