QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 12

Questions d’Entretien sur Big Data avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur Big Data comprennent divers sujets tel que les principes de base du Big Data, Hadoop, l’écosystème et ses composants, l’analyse, Hypervisor, etc… Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur Big Data.
 
 

1. Quel est le rôle des « Audit Logs » dans la sécurité Hadoop ?

A Ils empêchent les accès non autorisés aux données.

B Ils gèrent les clés de chiffrement.

C Ils chiffrent les données sensibles au repos.

D Ils enregistrent les tentatives d’accès et les actions effectuées sur les données et les ressources du cluster, fournissant ainsi une piste d’audit pour le suivi de la sécurité et la conformité réglementaire.

D
Les Audit Logs sont essentiels pour la sécurité car ils fournissent un enregistrement détaillé des activités au sein du cluster Hadoop, y compris les tentatives d’accès aux fichiers, les modifications de configuration et les actions administratives. Ces logs sont cruciaux pour la surveillance de la sécurité, la détection des activités suspectes et la conformité aux réglementations.

 

 

2. Quel moteur exécute par défaut les requêtes Hive si aucun moteur n’est spécifié ?

A MapReduce

B Spark

C Tez

D Presto

A
Par défaut, Hive utilise MapReduce pour exécuter les requêtes. Mais il est possible de configurer Hive pour utiliser Tez ou Spark, qui sont plus performants.

 

 

3. Que se passe-t-il si un Reducer échoue en cours d’exécution dans Hadoop ?

A Le job échoue

B Le Reducer est relancé automatiquement sur un autre nœud

C Les données sont perdues

D Les blocs HDFS sont supprimés

B
Hadoop est conçu pour gérer les pannes. Si un Reducer échoue, YARN relance la tâche sur un autre container/nœud. Si ça échoue plusieurs fois, le job complet peut échouer.

 

 
 

4. Quelle commande permet de vérifier la configuration du cluster Hadoop ?

A hadoop config -list

B hadoop dfsadmin -report

C hadoop check config

D hadoop fs -status

B
La commande hadoop dfsadmin -report permet d’obtenir un rapport d’état du cluster HDFS, y compris des informations sur l’espace disque, les nœuds du cluster et d’autres métriques importantes pour la gestion du cluster.

 

 

5. Qu’est-ce que « Apache Ranger » et « Apache Sentry » dans l’écosystème Hadoop ?

A Des outils pour la gestion et la surveillance des performances du cluster.

B Des frameworks pour le développement d’applications de machine learning distribuées sur Hadoop.

C Des systèmes centralisés pour la gestion de la sécurité (autorisation et audit) à travers les différents composants de l’écosystème Hadoop (HDFS, Hive, HBase, etc.).

D Des outils pour l’ingestion et le transfert de données vers et depuis Hadoop.

C
Apache Ranger et Apache Sentry sont des projets open source qui fournissent des solutions centralisées pour la gestion de la sécurité (principalement l’autorisation et l’audit) dans l’écosystème Hadoop. Ils permettent aux administrateurs de définir et d’appliquer des politiques de sécurité de manière cohérente à travers différents composants comme HDFS, Hive, HBase, et autres, simplifiant ainsi la gestion de la sécurité à grande échelle.

 

 

6. Quel type de compression est splittable (donc adapté à Hadoop) ?

A Gzip

B Bzip2

C Zip

D Snappy

B
Bzip2 est splittable, ce qui signifie qu’Hadoop peut lire différentes parties du fichier en parallèle, contrairement à Gzip ou Zip qui ne le sont pas → donc mieux pour le traitement distribué.

 

 
 

7. Quelle API Hadoop est utilisée pour interagir avec HDFS en Java ?

A java.io.File

B org.hadoop.fs.HDFSTools

C org.apache.hadoop.hdfs.client.HDFSClient

D org.apache.hadoop.fs.FileSystem

D
La classe FileSystem est l’interface principale utilisée pour interagir avec HDFS en Java. Elle permet de lire, écrire, supprimer des fichiers, etc.

 

 

8. Quelle commande permet de forcer la suppression récursive d’un répertoire dans HDFS, même s’il contient des fichiers ?

A hadoop fs -rm -force

B hadoop fs -rmdir -f

C hadoop fs -rm -r

D hadoop fs -del -rf

C
La commande hadoop fs -rm -r supprime un répertoire récursivement, c’est-à-dire avec tout son contenu. L’option -r est essentielle lorsqu’on veut supprimer un dossier non vide.

 

 

9. Qu’est-ce que « Hadoop Benchmarking » et quels outils sont couramment utilisés pour cela ?

A Le processus de compression et de décompression des données dans HDFS.

B L’évaluation des performances d’un cluster Hadoop en exécutant des charges de travail spécifiques et en mesurant des métriques telles que le débit, la latence et l’utilisation des ressources. Des outils comme TeraSort, TestDFSIO, et HiBench sont couramment utilisés.

C La configuration des seuils d’alerte pour la surveillance du cluster.

D La comparaison des différentes distributions Hadoop (Cloudera, Hortonworks, etc.).

B
Le Hadoop Benchmarking est essentiel pour comprendre les capacités et les limites d’un cluster Hadoop, pour identifier les goulots d’étranglement et pour optimiser les configurations. Des outils comme TeraSort (pour mesurer les performances de tri), TestDFSIO (pour tester les performances d’E/S de HDFS) et HiBench (une suite de benchmarks pour différents types de charges de travail Hadoop) sont couramment utilisés.

 

 
 

10. Dans Hive, quelle commande permet de voir les tables disponibles dans la base de données actuelle ?

A SHOW DATABASES

B SHOW TABLES

C DESCRIBE ALL

D LIST TABLES

B
La commande Hive SHOW TABLES affiche toutes les tables existantes dans la base sélectionnée. Tu peux aussi faire USE ma_base; avant, pour cibler une base spécifique.

 

 

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *