QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 20

avril 12, 2025avril 12, 2025 Thomas Aucun commentaire

Questions d’Entretien sur Big Data avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur Big Data comprennent divers sujets tel que les principes de base du Big Data, Hadoop, l’écosystème et ses composants, l’analyse, Hypervisor, etc… Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur Big Data.

1. Quel est le rôle du DataNode dans HDFS ?

A Exécuter les jobs MapReduce

B Gérer la réplication

C Stocker les blocs de données HDFS et répondre au NameNode

D Gérer les métadonnées

Les DataNodes sont les serveurs de stockage réels, où se trouvent les blocs de données. Ils signalent régulièrement leur état au NameNode.

2. Quel composant Spark gère les optimisations physiques/logiques des requêtes SQL ?

A Catalyst

B Tez

C DAGManager

D YarnPlanner

Catalyst est le moteur d’optimisation de Spark SQL :

Plan logique
Plan physique
Réécriture de requêtes
Pousser les filtres, etc.

3. En Hive, comment activer l’écriture dynamique des partitions ?

A SET hive.partition.mode=auto;

B SET hive.exec.dynamic.partition=true;

C SET hive.partition.dynamic=true;

D ENABLE DYNAMIC PARTITION

Tu dois activer deux propriétés pour permettre à Hive d’écrire automatiquement dans les bonnes partitions :

SET hive.exec.dynamic.partition=true;
SET hive.exec.dynamic.partition.mode=nonstrict;

4. Quel fichier de config contient le chemin du répertoire des fichiers temporaires pour les jobs MapReduce ?

A core-site.xml

B mapred-site.xml

C yarn-site.xml

D hdfs-site.xml

Tu peux définir les chemins comme :

<property>
  <name>mapreduce.cluster.temp.dir</name>
  <value>/tmp/mapred</value>
</property>

Dans mapred-site.xml, qui gère les propriétés MapReduce.

5. Dans Hive, que signifie le mot-clé `EXTERNAL` lors de la création d’une table ?

A Hive stocke les données dans une base externe

B Hive lit un fichier externe mais ne le supprime pas à la suppression de la table

C Hive compresse automatiquement les données

D Hive déplace les données dans HDFS

Une table EXTERNAL dit à Hive: “Lis ce répertoire, mais je gère moi-même les données.” Si vous faites DROP TABLE, les fichiers restent sur HDFS.

6. Dans Spark, que fait l’opération `repartition(n)` ?

A Réduit le nombre de partitions

B Trie les données

C Compresse les partitions

D Répartit les données de manière aléatoire sur n partitions (shuffle complet)

repartition(n) effectue un shuffle total → utile pour améliorer le parallélisme mais coûteux en ressources.

7. Quelle stratégie Hive utilise-t-il pour exécuter un `JOIN` entre deux tables ?

A Broadcast automatique

B Hash Join par défaut, Sort Merge si optimisé

C Nested Loop toujours

D Aucun join n’est possible

Hive essaie d’utiliser un Hash Join. Si les données sont triées et bucketisées, il peut utiliser un Sort Merge Join, plus performant.

8. Que signifie l’option `--target-dir` dans Sqoop ?

A Indique la base de données cible

B Supprime les anciens fichiers avant import

C Définit le dossier de destination sur HDFS

D Active la compression

Dans un import: sqoop import --target-dir /data/employes ... → les données sont stockées dans ce répertoire HDFS.

9. En Spark, que fait `.coalesce(n)` par rapport à `.repartition(n)` ?

A Effectue un shuffle complet

B Fusionne les partitions sans shuffle si possible

C Trie les données

D Supprime les partitions vides

.coalesce(n) est utilisé pour réduire le nombre de partitions sans avoir à tout remélanger (shuffle) → plus rapide que .repartition().

10. Quel moteur d’exécution Hive utilise-t-il par défaut dans les versions récentes ?

A MapReduce

B Spark

C Tez

D Pig

Depuis Hive 1.x+, Tez est devenu le moteur par défaut : plus rapide, plus efficace, DAG optimisé.

QCMs qui pourraient vous intéresser :

1. Quel est le rôle du DataNode dans HDFS ?

2. Quel composant Spark gère les optimisations physiques/logiques des requêtes SQL ?

3. En Hive, comment activer l’écriture dynamique des partitions ?

4. Quel fichier de config contient le chemin du répertoire des fichiers temporaires pour les jobs MapReduce ?

5. Dans Hive, que signifie le mot-clé EXTERNAL lors de la création d’une table ?

6. Dans Spark, que fait l’opération repartition(n) ?

7. Quelle stratégie Hive utilise-t-il pour exécuter un JOIN entre deux tables ?

8. Que signifie l’option --target-dir dans Sqoop ?

9. En Spark, que fait .coalesce(n) par rapport à .repartition(n) ?

10. Quel moteur d’exécution Hive utilise-t-il par défaut dans les versions récentes ?

Vous pourrez aussi aimer

QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 1

QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 16

QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 10

Laisser un commentaire Annuler la réponse

5. Dans Hive, que signifie le mot-clé `EXTERNAL` lors de la création d’une table ?

6. Dans Spark, que fait l’opération `repartition(n)` ?

7. Quelle stratégie Hive utilise-t-il pour exécuter un `JOIN` entre deux tables ?

8. Que signifie l’option `--target-dir` dans Sqoop ?

9. En Spark, que fait `.coalesce(n)` par rapport à `.repartition(n)` ?