QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 18

avril 11, 2025avril 12, 2025 Thomas Aucun commentaire

Questions d’Entretien sur Big Data avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur Big Data comprennent divers sujets tel que les principes de base du Big Data, Hadoop, l’écosystème et ses composants, l’analyse, Hypervisor, etc… Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur Big Data.

1. Que fait le JobTracker dans Hadoop v1 (avant YARN) ?

A Il distribue les blocs HDFS

B Il gère l’exécution et le suivi des jobs MapReduce

C Il stocke les métadonnées Hive

D Il remplace le NameNode

Dans Hadoop v1 (avant YARN), le JobTracker pilotait les jobs MapReduce, et les TaskTrackers exécutaient les tâches. YARN l’a ensuite remplacé avec un modèle plus scalable.

2. Quelle commande permet de compresser un fichier avant de le copier dans HDFS ?

A hadoop fs -put -compress

B hadoop fs -zip

C hadoop compress -copy

D Il faut d’abord compresser manuellement le fichier (ex: avec gzip)

Hadoop ne compresse pas automatiquement les fichiers lors de la copie. Il faut compresser manuellement avec gzip, bzip2 ou autre outil, puis copier le fichier compressé avec -put.

3. Quelle commande permet de compresser un fichier dans HDFS avec l’outil intégré Hadoop ?

A hadoop fs -gzip

B hadoop fs -compress

C hadoop fs -put -gzip

D hadoop fs -get -gzip

La commande hadoop fs -gzip permet de compresser un fichier dans HDFS. Cela fonctionne de la même manière que l’utilisation de gzip sous Linux pour compresser un fichier. Elle crée un fichier compressé au format .gz.

4. Quelle commande Hadoop permet de dupliquer un fichier dans HDFS ?

A hadoop fs -duplicate

B hadoop fs -copy

C hadoop fs -put -copy

D Il n’y a pas de commande dédiée à la duplication dans HDFS

Hadoop n’a pas de commande spécifique pour dupliquer un fichier dans HDFS. Pour dupliquer un fichier, vous devez utiliser hadoop fs -cp, ce qui permet de copier un fichier dans un autre répertoire avec un nom différent.

5. Quelle commande permet de supprimer un répertoire non vide dans HDFS ?

A hadoop fs -rm

B hadoop fs -delete -r

C hadoop fs -rmdir -f

D hadoop fs -rm -r

La suppression récursive dans HDFS se fait avec: hadoop fs -rm -r /chemin/du/dossier

6. En Hive, que fait la clause `CLUSTERED BY (colonne) INTO N BUCKETS` ?

A Partitionne la table

B Trie les données physiquement

C Réplique les données

D Crée des sous-fichiers en fonction du hachage de la colonne

Le bucketing est une stratégie de stockage complémentaire à la partition:

CLUSTERED BY (id_user) INTO 8 BUCKETS;

→ Hive répartit les données selon le hash de id_user, utile pour les jointures performantes.

7. Quelle commande permet de vérifier si un fichier existe dans HDFS ?

A hadoop fs -exists

B hadoop fs -test -e

C hdfs check -f

D hadoop fs -check -file

Commande discrète mais puissante: hadoop fs -test -e /chemin/fichier.txt && echo "Existe"

8. Quel processus gère la réplication automatique des blocs en HDFS ?

A DataNode

B NameNode

C ResourceManager

D Replicator daemon

C’est le NameNode qui garde la trace du nombre de réplicas de chaque bloc. Si un DataNode meurt, il ordonne à d’autres nœuds de répliquer les blocs manquants.

9. Dans Spark, un RDD est immutable, cela signifie que :

A On peut le modifier en place

B Il est mis à jour automatiquement à chaque action

C Toute transformation crée un nouveau RDD

D Il peut être mis à jour en mémoire

Les RDDs (Resilient Distributed Datasets) sont immutables: Chaque transformation (map, filter, etc.) crée un nouvel RDD → permet le tracking et la tolérance aux pannes via le DAG.

10. En Hive, quelle clause permet de filtrer les partitions à charger pour éviter de scanner toute la table ?

A WHERE

B PARTITION

C USE PARTITION

D MSCK REPAIR

Hive optimise la lecture via partition pruning si la clause WHERE utilise une colonne de partition :

SELECT * FROM ventes WHERE annee = 2023;

QCMs qui pourraient vous intéresser :

1. Que fait le JobTracker dans Hadoop v1 (avant YARN) ?

2. Quelle commande permet de compresser un fichier avant de le copier dans HDFS ?

3. Quelle commande permet de compresser un fichier dans HDFS avec l’outil intégré Hadoop ?

4. Quelle commande Hadoop permet de dupliquer un fichier dans HDFS ?

5. Quelle commande permet de supprimer un répertoire non vide dans HDFS ?

6. En Hive, que fait la clause CLUSTERED BY (colonne) INTO N BUCKETS ?

7. Quelle commande permet de vérifier si un fichier existe dans HDFS ?

8. Quel processus gère la réplication automatique des blocs en HDFS ?

9. Dans Spark, un RDD est immutable, cela signifie que :

10. En Hive, quelle clause permet de filtrer les partitions à charger pour éviter de scanner toute la table ?

Vous pourrez aussi aimer

QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 7

QCM sur Big Data corrigé – Principes de base – Partie 7

QCM sur Big Data corrigé – Principes de base – Partie 16

Laisser un commentaire Annuler la réponse

6. En Hive, que fait la clause `CLUSTERED BY (colonne) INTO N BUCKETS` ?