QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 19

Questions d’Entretien sur Big Data avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur Big Data comprennent divers sujets tel que les principes de base du Big Data, Hadoop, l’écosystème et ses composants, l’analyse, Hypervisor, etc… Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur Big Data.
 
 

1. En MapReduce, que contient le fichier _SUCCESS ?

A Les résultats du Reducer

B Une preuve que le job s’est terminé sans erreur

C L’historique du job

D Un résumé des statistiques du Mapper

B
Ce fichier vide est généré automatiquement quand un job Hadoop/Hive/Spark réussit → souvent utilisé dans les pipelines (ex: Oozie, Airflow) comme « flag de fin ».

 

 

2. Quelle fonction permet de compter des lignes dans Hive ?

A COUNTLINES()

B NUMROWS()

C COUNT(*)

D SIZE(*)

C
La fonction COUNT(*) est standard SQL, utilisée en Hive:

SELECT COUNT(*) FROM ma_table;

 

 

3. Quelle commande permet de fusionner plusieurs fichiers dans HDFS en un seul fichier ?

A hadoop fs -merge

B hadoop fs -getmerge

C hadoop fs -join

D hadoop fs -combine

B
La commande hadoop fs -getmerge permet de fusionner plusieurs fichiers présents dans HDFS en un seul fichier local. Elle est souvent utilisée pour regrouper les fichiers de sortie d’un job MapReduce avant de les récupérer.

 

 
 

4. En Hive, que fait la commande MSCK REPAIR TABLE ?

A Vide les partitions

B Répare les données corrompues

C Redémarre le moteur d’exécution

D Ajoute au métastore les partitions HDFS manquantes

D
Quand tu ajoutes manuellement des dossiers dans HDFS (partitions), Hive ne les « voit » pas. MSCK REPAIR TABLE permet de synchroniser le métastore avec le contenu réel du dossier HDFS.

 

 

5. Quelle est la taille par défaut d’un bloc HDFS dans Hadoop 3.x ?

A 64 Mo

B 128 Mo

C 256 Mo

D 512 Mo

C
  • Hadoop 1.x → 64 Mo
  • Hadoop 2.x → 128 Mo
  • Hadoop 3.x → 256 Mo (valeur par défaut modifiée pour réduire la charge sur le NameNode)

 

 

6. Quelle commande permet d’afficher l’espace libre dans le cluster HDFS ?

A hdfs dfsadmin -free

B hadoop fs -df

C hdfs dfs -diskspace

D hdfs dfsadmin -report

B
La commande hadoop fs -df permet d’afficher l’espace libre et l’espace total sur le cluster HDFS, tout comme la commande df en Unix. Elle donne des informations sur la capacité et l’espace utilisé des différentes partitions du cluster.

 

 
 

7. En MapReduce, comment appelle-t-on les fichiers intermédiaires entre les phases Map et Reduce ?

A Fichiers split

B Fichiers sortants

C Fichiers intermédiaires triés (spill files)

D Fichiers de post-traitement

C
Les Mappers écrivent des données triées localement sur disque appelées spill files. Ces fichiers sont ensuite utilisés dans le shuffle phase.

 

 

8. Dans YARN, un container est ______________

A Un conteneur Docker isolé

B Une instance de HDFS

C Une partition de cluster

D Une unité de ressources (mémoire + CPU) pour exécuter des tâches

D
YARN alloue des containers pour chaque tâche, avec une quantité définie de mémoire et CPU. Ils sont gérés dynamiquement par le ResourceManager et l’ApplicationMaster.

 

 

9. En Spark, que fait la méthode .collect() sur un RDD ou un DataFrame ?

A Sauvegarde les données sur HDFS

B Envoie toutes les données vers le driver

C Distribue les données aux workers

D Compresse les résultats

B
.collect() ramène toutes les données du cluster dans le driver. ⚠️ À utiliser uniquement quand tu es sûr de la taille limitée des données.

 

 
 

10. Dans Hive, quel type de table supprime aussi les fichiers HDFS quand on la droppe ?

A MANAGED (ou INTERNAL)

B EXTERNAL

C TEMPORARY

D LOGICAL

A
Les tables MANAGED sont gérées complètement par Hive → quand tu DROP la table, les données HDFS sont aussi supprimées.

 

 

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *