Questions d’Entretien sur Big Data avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur Big Data comprennent divers sujets tel que les principes de base du Big Data, Hadoop, l’écosystème et ses composants, l’analyse, Hypervisor, etc… Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur Big Data.
1. En Spark, que fait la méthode .cache() ?
A Stocke les données sur disque
B Supprime les partitions inutilisées
C Stocke les données en mémoire pour réutilisation
D Fait un snapshot du DataFrame
C
.cache() = alias de .persist(StorageLevel.MEMORY_AND_DISK) → très utile quand tu veux réutiliser un RDD ou un DataFrame plusieurs fois sans le recalculer.
2. Dans Hive, comment éviter qu’un INSERT OVERWRITE ne supprime toute une partition non ciblée ?
A Utiliser INSERT INTO
B Utiliser des vues
C Utiliser MSCK REPAIR avant
D Activer le mode strict
A
INSERT OVERWRITE écrase complètement les partitions ciblées. Si tu veux ajouter sans effacer, utilise INSERT INTO.
3. Quel est l’ordre logique d’exécution d’une requête Hive SQL ?
A FROM → SELECT → WHERE → GROUP BY → HAVING → ORDER BY
B SELECT → FROM → WHERE → ORDER BY → HAVING
C FROM → WHERE → GROUP BY → HAVING → SELECT → ORDER BY
D WHERE → FROM → SELECT → GROUP BY → HAVING → ORDER BY
C
L’ordre logique, différent de l’ordre d’écriture, est : FROM → WHERE → GROUP BY → HAVING → SELECT → ORDER BY
4. Quelle commande permet de tester la connectivité entre le client et le NameNode ?
Ahadoop fs -ping
Bhdfs fsck /
Chadoop dfsadmin -test
Dhadoop fs -connect
A
La commande hadoop fs -ping permet de tester la connectivité réseau entre le client et le serveur NameNode dans HDFS. Si tout fonctionne correctement, elle renvoie une confirmation de la connexion.
5. En Hive, MSCK REPAIR TABLE sert à _________
A Réinitialiser une table temporaire
B Mettre à jour les partitions physiques non enregistrées dans le metastore
C Corriger une erreur de syntaxe
D Compacter les données de la table
B
Quand tu ajoutes des dossiers manuellement sur HDFS (ex : /table/annee=2025/mois=04) → Hive ne les voit pas sauf si tu lances : MSCK REPAIR TABLE nom_table;
6. En Hadoop, quel outil permet de surveiller le cluster HDFS (santé, datanodes, espace) via une UI ?
A Yarn UI
B Namenode UI
C JobTracker
D Oozie
B
Accessible via http://namenode:50070 (ou 9870 selon version), cette interface te donne :
Etat du cluster
Liste des DataNodes
Utilisation HDFS
Fichiers, blocs, etc.
7. En Hive, le fichier hive-site.xml permet de :
A Déclarer les fonctions SQL
B Configurer les paramètres de Hive (Metastore, exec engine, etc.)
C Écrire des scripts SQL
D Configurer YARN
B
C’est le fichier principal de config Hive, dans $HIVE_HOME/conf :
Connexion JDBC au metastore
Moteur (Tez, MR, Spark)
Mode strict, etc.
8. En Spark, broadcast() permet de :
A Partager une grosse table entre plusieurs applications
B Envoyer une petite table à tous les workers pour un join efficace
C Cloner un DataFrame
D Démarrer plusieurs jobs simultanément
B
Quand tu joins une grosse table avec une petite table → tu peux faire :
val smallBC = spark.sparkContext.broadcast(smallTable)
9. En Hive, que fait la clause SORT BY ?
A Trie globalement tous les résultats
B Trie uniquement les colonnes numériques
C Trie après GROUP BY
D Trie localement dans chaque reducer
D
SORT BY trie localement dans chaque tâche → plus rapide mais pas de tri global garanti (contrairement à ORDER BY, qui trie globalement et nécessite un seul reducer).
10. Quelle commande Hadoop permet de définir le facteur de réplication lors du téléchargement d’un fichier dans HDFS ?
Ahadoop fs -put -replication
Bhadoop fs -Ddfs.replication=3 -put
Chadoop fs -setrep
Dhadoop fs -copyFromLocal -r
B
On peut définir temporairement le facteur de réplication d’un fichier lors de sa mise en HDFS avec l’option -Ddfs.replication=<valeur>. Par exemple: