Questions d’Entretien sur Big Data avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur Big Data comprennent divers sujets tel que les principes de base du Big Data, Hadoop, l’écosystème et ses composants, l’analyse, Hypervisor, etc… Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur Big Data.
1. Que fait le JobTracker dans Hadoop v1 (avant YARN) ?
A Il distribue les blocs HDFS
B Il gère l’exécution et le suivi des jobs MapReduce
C Il stocke les métadonnées Hive
D Il remplace le NameNode
B
Dans Hadoop v1 (avant YARN), le JobTracker pilotait les jobs MapReduce, et les TaskTrackers exécutaient les tâches. YARN l’a ensuite remplacé avec un modèle plus scalable.
2. Quelle commande permet de compresser un fichier avant de le copier dans HDFS ?
Ahadoop fs -put -compress
Bhadoop fs -zip
Chadoop compress -copy
D Il faut d’abord compresser manuellement le fichier (ex: avec gzip)
D
Hadoop ne compresse pas automatiquement les fichiers lors de la copie. Il faut compresser manuellement avec gzip, bzip2 ou autre outil, puis copier le fichier compressé avec -put.
3. Quelle commande permet de compresser un fichier dans HDFS avec l’outil intégré Hadoop ?
Ahadoop fs -gzip
Bhadoop fs -compress
Chadoop fs -put -gzip
Dhadoop fs -get -gzip
A
La commande hadoop fs -gzip permet de compresser un fichier dans HDFS. Cela fonctionne de la même manière que l’utilisation de gzip sous Linux pour compresser un fichier. Elle crée un fichier compressé au format .gz.
4. Quelle commande Hadoop permet de dupliquer un fichier dans HDFS ?
Ahadoop fs -duplicate
Bhadoop fs -copy
Chadoop fs -put -copy
D Il n’y a pas de commande dédiée à la duplication dans HDFS
D
Hadoop n’a pas de commande spécifique pour dupliquer un fichier dans HDFS. Pour dupliquer un fichier, vous devez utiliser hadoop fs -cp, ce qui permet de copier un fichier dans un autre répertoire avec un nom différent.
5. Quelle commande permet de supprimer un répertoire non vide dans HDFS ?
Ahadoop fs -rm
Bhadoop fs -delete -r
Chadoop fs -rmdir -f
Dhadoop fs -rm -r
D
La suppression récursive dans HDFS se fait avec: hadoop fs -rm -r /chemin/du/dossier
6. En Hive, que fait la clause CLUSTERED BY (colonne) INTO N BUCKETS ?
A Partitionne la table
B Trie les données physiquement
C Réplique les données
D Crée des sous-fichiers en fonction du hachage de la colonne
D
Le bucketing est une stratégie de stockage complémentaire à la partition:
CLUSTERED BY (id_user) INTO 8 BUCKETS;
→ Hive répartit les données selon le hash de id_user, utile pour les jointures performantes.
7. Quelle commande permet de vérifier si un fichier existe dans HDFS ?
8. Quel processus gère la réplication automatique des blocs en HDFS ?
A DataNode
B NameNode
C ResourceManager
D Replicator daemon
B
C’est le NameNode qui garde la trace du nombre de réplicas de chaque bloc. Si un DataNode meurt, il ordonne à d’autres nœuds de répliquer les blocs manquants.
9. Dans Spark, un RDD est immutable, cela signifie que :
A On peut le modifier en place
B Il est mis à jour automatiquement à chaque action
C Toute transformation crée un nouveau RDD
D Il peut être mis à jour en mémoire
C
Les RDDs (Resilient Distributed Datasets) sont immutables: Chaque transformation (map, filter, etc.) crée un nouvel RDD → permet le tracking et la tolérance aux pannes via le DAG.
10. En Hive, quelle clause permet de filtrer les partitions à charger pour éviter de scanner toute la table ?
A WHERE
B PARTITION
C USE PARTITION
D MSCK REPAIR
A
Hive optimise la lecture via partition pruning si la clause WHERE utilise une colonne de partition :