Q uestions d’Entretien sur Big Data avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur Big Data comprennent divers sujets tel que les principes de base du Big Data, Hadoop, l’écosystème et ses composants, l’analyse, Hypervisor, etc… Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur Big Data.
1. Quel est le rôle du DataNode dans HDFS ?
A Exécuter les jobs MapReduce
B Gérer la réplication
C Stocker les blocs de données HDFS et répondre au NameNode
D Gérer les métadonnées
Réponse
C
Les DataNodes sont les serveurs de stockage réels, où se trouvent les blocs de données. Ils signalent régulièrement leur état au NameNode.
2. Quel composant Spark gère les optimisations physiques/logiques des requêtes SQL ?
A Catalyst
B Tez
C DAGManager
D YarnPlanner
Réponse
A
Catalyst est le moteur d’optimisation de Spark SQL :
Plan logique
Plan physique
Réécriture de requêtes
Pousser les filtres, etc.
3. En Hive, comment activer l’écriture dynamique des partitions ?
A SET hive.partition.mode=auto;
B SET hive.exec.dynamic.partition=true;
C SET hive.partition.dynamic=true;
D ENABLE DYNAMIC PARTITION
Réponse
B
Tu dois activer deux propriétés pour permettre à Hive d’écrire automatiquement dans les bonnes partitions :
SET hive.exec.dynamic.partition=true;
SET hive.exec.dynamic.partition.mode=nonstrict;
4. Quel fichier de config contient le chemin du répertoire des fichiers temporaires pour les jobs MapReduce ?
A core-site.xml
B mapred-site.xml
C yarn-site.xml
D hdfs-site.xml
Réponse
B
Tu peux définir les chemins comme :
<property>
<name>mapreduce.cluster.temp.dir</name>
<value>/tmp/mapred</value>
</property>
Dans mapred-site.xml, qui gère les propriétés MapReduce.
5. Dans Hive, que signifie le mot-clé EXTERNAL
lors de la création d’une table ?
A Hive stocke les données dans une base externe
B Hive lit un fichier externe mais ne le supprime pas à la suppression de la table
C Hive compresse automatiquement les données
D Hive déplace les données dans HDFS
Réponse
B
Une table EXTERNAL
dit à Hive: “Lis ce répertoire, mais je gère moi-même les données.” Si vous faites DROP TABLE
, les fichiers restent sur HDFS.
6. Dans Spark, que fait l’opération repartition(n)
?
A Réduit le nombre de partitions
B Trie les données
C Compresse les partitions
D Répartit les données de manière aléatoire sur n partitions (shuffle complet)
Réponse
D
repartition(n)
effectue un shuffle total → utile pour améliorer le parallélisme mais coûteux en ressources.
7. Quelle stratégie Hive utilise-t-il pour exécuter un JOIN
entre deux tables ?
A Broadcast automatique
B Hash Join par défaut, Sort Merge si optimisé
C Nested Loop toujours
D Aucun join n’est possible
Réponse
B
Hive essaie d’utiliser un Hash Join. Si les données sont triées et bucketisées, il peut utiliser un Sort Merge Join, plus performant.
8. Que signifie l’option --target-dir
dans Sqoop ?
A Indique la base de données cible
B Supprime les anciens fichiers avant import
C Définit le dossier de destination sur HDFS
D Active la compression
Réponse
C
Dans un import: sqoop import --target-dir /data/employes ...
→ les données sont stockées dans ce répertoire HDFS.
9. En Spark, que fait .coalesce(n)
par rapport à .repartition(n)
?
A Effectue un shuffle complet
B Fusionne les partitions sans shuffle si possible
C Trie les données
D Supprime les partitions vides
Réponse
B
.coalesce(n)
est utilisé pour réduire le nombre de partitions sans avoir à tout remélanger (shuffle) → plus rapide que .repartition()
.
10. Quel moteur d’exécution Hive utilise-t-il par défaut dans les versions récentes ?
A MapReduce
B Spark
C Tez
D Pig
Réponse
C
Depuis Hive 1.x+, Tez est devenu le moteur par défaut : plus rapide, plus efficace, DAG optimisé.
QCM sur Big Data corrigé – Principes de base – Partie 1 QCM sur Big Data corrigé – Principes de base – Partie 2 QCM sur Big Data corrigé – Principes de base – Partie 3 QCM sur Big Data corrigé – Principes de base – Partie 4 QCM sur Big Data corrigé – Principes de base – Partie 5 QCM sur Big Data corrigé – Principes de base – Partie 6 QCM sur Big Data corrigé – Principes de base – Partie 7 QCM sur Big Data corrigé – Principes de base – Partie 8 QCM sur Big Data corrigé – Principes de base – Partie 9 QCM sur Big Data corrigé – Principes de base – Partie 10 QCM sur Big Data corrigé – Principes de base – Partie 11 QCM sur Big Data corrigé – Principes de base – Partie 12 QCM sur Big Data corrigé – Principes de base – Partie 13 QCM sur Big Data corrigé – Principes de base – Partie 14 QCM sur Big Data corrigé – Principes de base – Partie 15 QCM sur Big Data corrigé – Principes de base – Partie 16 QCM sur Big Data corrigé – Principes de base – Partie 17 QCM sur Big Data corrigé – Principes de base – Partie 18 QCM sur Big Data corrigé – Principes de base – Partie 19 QCM sur Big Data corrigé – Principes de base – Partie 20 QCM sur Big Data corrigé – Principes de base – Partie 21 QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 1 QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 2 QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 3 QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 4 QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 5 QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 6 QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 7 QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 8 QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 9 QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 10 QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 11 QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 12 QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 13 QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 14 QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 15 QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 16 QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 17 QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 18 QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 19 QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 20 QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 21 QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 22 QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 23 QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 24 QCM sur Big Data corrigé – Mapreduce
QCMs qui pourraient vous intéresser :