QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 20

Questions d’Entretien sur Big Data avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur Big Data comprennent divers sujets tel que les principes de base du Big Data, Hadoop, l’écosystème et ses composants, l’analyse, Hypervisor, etc… Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur Big Data.
 
 

1. Quel est le rôle du DataNode dans HDFS ?

A Exécuter les jobs MapReduce

B Gérer la réplication

C Stocker les blocs de données HDFS et répondre au NameNode

D Gérer les métadonnées

C
Les DataNodes sont les serveurs de stockage réels, où se trouvent les blocs de données. Ils signalent régulièrement leur état au NameNode.

 

 

2. Quel composant Spark gère les optimisations physiques/logiques des requêtes SQL ?

A Catalyst

B Tez

C DAGManager

D YarnPlanner

A
Catalyst est le moteur d’optimisation de Spark SQL :

  • Plan logique
  • Plan physique
  • Réécriture de requêtes
  • Pousser les filtres, etc.

 

 

3. En Hive, comment activer l’écriture dynamique des partitions ?

A SET hive.partition.mode=auto;

B SET hive.exec.dynamic.partition=true;

C SET hive.partition.dynamic=true;

D ENABLE DYNAMIC PARTITION

B
Tu dois activer deux propriétés pour permettre à Hive d’écrire automatiquement dans les bonnes partitions :

SET hive.exec.dynamic.partition=true;
SET hive.exec.dynamic.partition.mode=nonstrict;

 

 
 

4. Quel fichier de config contient le chemin du répertoire des fichiers temporaires pour les jobs MapReduce ?

A core-site.xml

B mapred-site.xml

C yarn-site.xml

D hdfs-site.xml

B
Tu peux définir les chemins comme :

<property>
  <name>mapreduce.cluster.temp.dir</name>
  <value>/tmp/mapred</value>
</property>

Dans mapred-site.xml, qui gère les propriétés MapReduce.

 

 

5. Dans Hive, que signifie le mot-clé EXTERNAL lors de la création d’une table ?

A Hive stocke les données dans une base externe

B Hive lit un fichier externe mais ne le supprime pas à la suppression de la table

C Hive compresse automatiquement les données

D Hive déplace les données dans HDFS

B
Une table EXTERNAL dit à Hive: “Lis ce répertoire, mais je gère moi-même les données.” Si vous faites DROP TABLE, les fichiers restent sur HDFS.

 

 

6. Dans Spark, que fait l’opération repartition(n) ?

A Réduit le nombre de partitions

B Trie les données

C Compresse les partitions

D Répartit les données de manière aléatoire sur n partitions (shuffle complet)

D
repartition(n) effectue un shuffle total → utile pour améliorer le parallélisme mais coûteux en ressources.

 

 
 

7. Quelle stratégie Hive utilise-t-il pour exécuter un JOIN entre deux tables ?

A Broadcast automatique

B Hash Join par défaut, Sort Merge si optimisé

C Nested Loop toujours

D Aucun join n’est possible

B
Hive essaie d’utiliser un Hash Join. Si les données sont triées et bucketisées, il peut utiliser un Sort Merge Join, plus performant.

 

 

8. Que signifie l’option --target-dir dans Sqoop ?

A Indique la base de données cible

B Supprime les anciens fichiers avant import

C Définit le dossier de destination sur HDFS

D Active la compression

C
Dans un import: sqoop import --target-dir /data/employes ... → les données sont stockées dans ce répertoire HDFS.

 

 

9. En Spark, que fait .coalesce(n) par rapport à .repartition(n) ?

A Effectue un shuffle complet

B Fusionne les partitions sans shuffle si possible

C Trie les données

D Supprime les partitions vides

B
.coalesce(n) est utilisé pour réduire le nombre de partitions sans avoir à tout remélanger (shuffle) → plus rapide que .repartition().

 

 
 

10. Quel moteur d’exécution Hive utilise-t-il par défaut dans les versions récentes ?

A MapReduce

B Spark

C Tez

D Pig

C
Depuis Hive 1.x+, Tez est devenu le moteur par défaut : plus rapide, plus efficace, DAG optimisé.

 

 

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *