QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 17

avril 11, 2025avril 12, 2025 Thomas Aucun commentaire

Questions d’Entretien sur Big Data avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur Big Data comprennent divers sujets tel que les principes de base du Big Data, Hadoop, l’écosystème et ses composants, l’analyse, Hypervisor, etc… Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur Big Data.

1. Dans HDFS, que contient le fsimage ?

A Les blocs de données

B Les logs du système

C L’historique des jobs YARN

D L’image en mémoire de l’arborescence HDFS (métadonnées)

Le fichier fsimage est un snapshot des métadonnées HDFS (répertoires, noms de fichiers, permissions). Il est chargé par le NameNode au démarrage.

2. Quel composant est utilisé par Hive pour accéder au métastore ?

A HiveShell

B HiveServer2

C Metastore Service

D DataNode

Le Metastore Service stocke les métadonnées de Hive (tables, schémas, partitions). Il est souvent connecté à une base comme MySQL ou PostgreSQL.

3. Comment exécuter un job Hive via ligne de commande ?

A hive --job "job.hql"

B hive -f job.hql

C hive run job.hql

D hive -exec job.hql

La commande hive -f permet d’exécuter un fichier HiveQL complet. Exemple:

hive -f script_requetes.hql

4. Que fait l’option -getmerge dans HDFS ?

A Fusionne plusieurs répertoires

B Copie et fusionne tous les fichiers d’un répertoire HDFS en un seul fichier local

C Crée un snapshot

D Compresse les blocs dans un seul fichier

Parfait pour récupérer un résultat MapReduce stocké en plusieurs fichiers (ex: part-0000x) :

hadoop fs -getmerge /output_dir result.txt

5. Dans Hadoop, à quoi sert le fichier `core-site.xml` ?

A À configurer les paramètres MapReduce

B À définir les paramètres globaux comme le système de fichiers par défaut

C À gérer la réplication des blocs HDFS

D À configurer les ports du NameNode

core-site.xml contient les paramètres de base du système Hadoop, dont:

fs.defaultFS → URL de HDFS
Authentification
Compression, etc.

6. En MapReduce, qu’est-ce que le Context ?

A Une interface qui permet de modifier les fichiers HDFS

B Une classe utilisée pour lire les fichiers ligne par ligne

C Un objet qui permet au Mapper/Reducer d’émettre les résultats et d’accéder à la configuration

D Une API Hive

Le Context est utilisé pour :

Émettre des paires clé/valeur avec context.write()
Lire la configuration du job
Compter via les counters

7. Dans Hive, que permet la clause PARTITIONED BY lors de la création d’une table ?

A Répliquer les données

B Répartir les données dans des dossiers HDFS pour optimiser les requêtes

C Séparer les colonnes entre plusieurs fichiers

D Activer les vues matérialisées

Les partitions Hive sont des sous-répertoires dans HDFS, filtrés efficacement via la clause WHERE. Ex: CREATE TABLE ventes (...) PARTITIONED BY (annee INT, mois INT);

8. Quelle est la conséquence d’une mauvaise configuration du block size dans HDFS ?

A Aucun effet sur les performances

B Trop de petits fichiers → surcharge du NameNode

C Réplication excessive des fichiers

D Incompatibilité avec Hive

Chaque bloc (même petit) prend de la mémoire dans le NameNode. Si tu as des millions de petits fichiers, le NameNode peut saturer → problème de scalabilité.

9. En Spark, que fait `persist(StorageLevel.MEMORY_AND_DISK)` ?

A Cache uniquement sur disque

B Cache uniquement en mémoire

C Supprime le cache automatiquement

D Cache en mémoire et, si elle est pleine, sur disque

Par défaut, Spark garde les RDD en RAM. MEMORY_AND_DISK permet de sauvegarder les données sur disque si la mémoire est insuffisante, évitant les erreurs.

10. Quelle commande Hadoop permet d’évaluer la répartition des blocs d’un fichier dans HDFS ?

A hadoop fs -blocks

B hdfs fsck <chemin>

C hadoop fs -du -b

D hadoop fs -stat

hdfs fsck permet d’inspecter la structure des blocs d’un fichier dans HDFS, leur localisation sur les DataNodes, et si les blocs sont complets ou corrompus.

QCMs qui pourraient vous intéresser :

1. Dans HDFS, que contient le fsimage ?

2. Quel composant est utilisé par Hive pour accéder au métastore ?

3. Comment exécuter un job Hive via ligne de commande ?

4. Que fait l’option -getmerge dans HDFS ?

5. Dans Hadoop, à quoi sert le fichier core-site.xml ?

6. En MapReduce, qu’est-ce que le Context ?

7. Dans Hive, que permet la clause PARTITIONED BY lors de la création d’une table ?

8. Quelle est la conséquence d’une mauvaise configuration du block size dans HDFS ?

9. En Spark, que fait persist(StorageLevel.MEMORY_AND_DISK) ?

10. Quelle commande Hadoop permet d’évaluer la répartition des blocs d’un fichier dans HDFS ?

Vous pourrez aussi aimer

QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 15

QCM sur Big Data corrigé – Principes de base – Partie 7

QCM sur Big Data corrigé – Principes de base – Partie 17

Laisser un commentaire Annuler la réponse

5. Dans Hadoop, à quoi sert le fichier `core-site.xml` ?

9. En Spark, que fait `persist(StorageLevel.MEMORY_AND_DISK)` ?