Questions d’Entretien sur Big Data avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur Big Data comprennent divers sujets tel que les principes de base du Big Data, Hadoop, l’écosystème et ses composants, l’analyse, Hypervisor, etc… Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur Big Data.
1. Dans HDFS, que contient le fsimage ?
A Les blocs de données
B Les logs du système
C L’historique des jobs YARN
D L’image en mémoire de l’arborescence HDFS (métadonnées)
D
Le fichier fsimage est un snapshot des métadonnées HDFS (répertoires, noms de fichiers, permissions). Il est chargé par le NameNode au démarrage.
2. Quel composant est utilisé par Hive pour accéder au métastore ?
A HiveShell
B HiveServer2
C Metastore Service
D DataNode
C
Le Metastore Service stocke les métadonnées de Hive (tables, schémas, partitions). Il est souvent connecté à une base comme MySQL ou PostgreSQL.
3. Comment exécuter un job Hive via ligne de commande ?
Ahive --job "job.hql"
Bhive -f job.hql
Chive run job.hql
Dhive -exec job.hql
B
La commande hive -f permet d’exécuter un fichier HiveQL complet. Exemple:
hive -f script_requetes.hql
4. Que fait l’option -getmerge dans HDFS ?
A Fusionne plusieurs répertoires
B Copie et fusionne tous les fichiers d’un répertoire HDFS en un seul fichier local
C Crée un snapshot
D Compresse les blocs dans un seul fichier
B
Parfait pour récupérer un résultat MapReduce stocké en plusieurs fichiers (ex: part-0000x) :
hadoop fs -getmerge /output_dir result.txt
5. Dans Hadoop, à quoi sert le fichier core-site.xml ?
A À configurer les paramètres MapReduce
B À définir les paramètres globaux comme le système de fichiers par défaut
C À gérer la réplication des blocs HDFS
D À configurer les ports du NameNode
B
core-site.xml contient les paramètres de base du système Hadoop, dont:
fs.defaultFS → URL de HDFS
Authentification
Compression, etc.
6. En MapReduce, qu’est-ce que le Context ?
A Une interface qui permet de modifier les fichiers HDFS
B Une classe utilisée pour lire les fichiers ligne par ligne
C Un objet qui permet au Mapper/Reducer d’émettre les résultats et d’accéder à la configuration
D Une API Hive
C
Le Context est utilisé pour :
Émettre des paires clé/valeur avec context.write()
Lire la configuration du job
Compter via les counters
7. Dans Hive, que permet la clause PARTITIONED BY lors de la création d’une table ?
A Répliquer les données
B Répartir les données dans des dossiers HDFS pour optimiser les requêtes
C Séparer les colonnes entre plusieurs fichiers
D Activer les vues matérialisées
B
Les partitions Hive sont des sous-répertoires dans HDFS, filtrés efficacement via la clause WHERE. Ex: CREATE TABLE ventes (...) PARTITIONED BY (annee INT, mois INT);
8. Quelle est la conséquence d’une mauvaise configuration du block size dans HDFS ?
A Aucun effet sur les performances
B Trop de petits fichiers → surcharge du NameNode
C Réplication excessive des fichiers
D Incompatibilité avec Hive
B
Chaque bloc (même petit) prend de la mémoire dans le NameNode. Si tu as des millions de petits fichiers, le NameNode peut saturer → problème de scalabilité.
9. En Spark, que fait persist(StorageLevel.MEMORY_AND_DISK) ?
A Cache uniquement sur disque
B Cache uniquement en mémoire
C Supprime le cache automatiquement
D Cache en mémoire et, si elle est pleine, sur disque
D
Par défaut, Spark garde les RDD en RAM. MEMORY_AND_DISK permet de sauvegarder les données sur disque si la mémoire est insuffisante, évitant les erreurs.
10. Quelle commande Hadoop permet d’évaluer la répartition des blocs d’un fichier dans HDFS ?
Ahadoop fs -blocks
Bhdfs fsck <chemin>
Chadoop fs -du -b
Dhadoop fs -stat
B
hdfs fsck permet d’inspecter la structure des blocs d’un fichier dans HDFS, leur localisation sur les DataNodes, et si les blocs sont complets ou corrompus.