Questions d’Entretien sur Big Data avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur Big Data comprennent divers sujets tel que les principes de base du Big Data, Hadoop, l’écosystème et ses composants, l’analyse, Hypervisor, etc… Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur Big Data.
1. Qu’est-ce que le « speculative execution » dans Hadoop ?
A Une technique pour optimiser l’allocation des ressources en prédisant les besoins futurs.
B Un mécanisme pour redémarrer automatiquement les tâches ayant échoué.
C Une stratégie pour lancer des copies de sauvegarde des tâches lentes sur d’autres nœuds afin d’accélérer l’exécution globale du travail.
D Une fonctionnalité pour exécuter des tâches MapReduce en utilisant la mémoire plutôt que le disque.
C
La speculative execution est une fonctionnalité de Hadoop qui permet de lancer des copies de sauvegarde des tâches qui semblent s’exécuter plus lentement que les autres. Le résultat de la première copie à se terminer est utilisé, et les autres copies sont tuées. Cela permet d’atténuer l’impact des nœuds lents (« stragglers ») sur la durée totale du travail.
2. Quelle propriété Hadoop permet de compresser les données intermédiaires entre le Mapper et le Reducer ?
A
mapreduce.compress.intermediate
mapreduce.compress.intermediate
B
mapreduce.map.output.compress
mapreduce.map.output.compress
C
mapreduce.shuffle.compress
mapreduce.shuffle.compress
D
hdfs.intermediate.compress
hdfs.intermediate.compress
B
Pour activer la compression entre le Mapper et le Reducer, on utilise:
Cela réduit le volume de données transférées durant la phase de shuffle → gains en bande passante et vitesse !
3. Quel est le principal avantage de l’utilisation de YARN par rapport à l’ancienne architecture MapReduce (Hadoop 1.x) ?
A Une meilleure performance pour les tâches de traitement par lots.
B La possibilité d’exécuter plusieurs frameworks de traitement de données (comme Spark, Flink) sur le même cluster.
C Une gestion plus simple du système de fichiers HDFS.
D Une sécurité renforcée pour les données.
B
L’architecture YARN a désolidarisé la gestion des ressources (ResourceManager) de la gestion des tâches (ApplicationMaster). Cela permet à différentes applications et frameworks de traitement de données (autres que MapReduce) de s’exécuter sur le même cluster Hadoop, partageant les mêmes ressources.
4. Quelle est la fonction du OutputFormat en MapReduce ?
A Organiser la sortie en fichiers JSON
B Spécifier le format de la sortie du Reducer
C Compresser les résultats MapReduce
D Transférer les résultats vers une base de données
B
L’OutputFormat définit comment les résultats du Reducer sont écrits dans HDFS ou ailleurs. Exemples :
TextOutputFormat
SequenceFileOutputFormat
MultipleOutputs, etc.
5. Quelle commande permet de créer un répertoire dans HDFS ?
A
hadoop fs -mkdir
hadoop fs -mkdir
B
hadoop fs -newdir
hadoop fs -newdir
C
hadoop fs -create
hadoop fs -create
D
hadoop fs -makedir
hadoop fs -makedir
A
La commande
hadoop fs -mkdir
hadoop fs -mkdir permet de créer un répertoire dans HDFS. Elle fonctionne de manière similaire à la commande mkdir dans un système Linux.
6. En cas de défaillance du NameNode, que se passe-t-il ?
A Le cluster continue normalement grâce aux DataNodes
B Le cluster s’arrête car le NameNode est un SPOF (Single Point of Failure)
C Les Reducers prennent le relais
D Le ResourceManager remplace le NameNode
B
Dans Hadoop 1.x (et sans HA), le NameNode est un point critique : s’il tombe, le cluster devient inaccessible (les données sont là, mais inaccessibles).
→ Hadoop 2.x a introduit NameNode en Haute Disponibilité (Active / Standby) pour corriger ça.
7. Qu’est-ce qu’un « Container » dans YARN ?
A Une unité logique de stockage dans HDFS.
B Une abstraction représentant un ensemble de ressources (CPU, mémoire, etc.) allouées par le ResourceManager à une tâche (par exemple, un mapper ou un reducer).
C Un fichier de configuration contenant les paramètres d’une application Hadoop.
D Une interface utilisateur pour interagir avec le cluster Hadoop.
B
Un Container dans YARN représente une allocation de ressources (CPU, mémoire, etc.) sur un NodeManager. Le ResourceManager alloue des containers aux ApplicationMasters, qui à leur tour lancent les tâches (mappers, reducers, etc.) de leur application à l’intérieur de ces containers.
8. Lequel des formats suivants est orienté lignes et bien adapté à l’écriture de données sérialisées dans Hadoop ?
A Parquet
B Avro
C ORC
D RCFile
B
Avro est un format de données orienté lignes, compact, rapide à sérialiser, auto-descriptif (schéma intégré), idéal pour écrire ou transmettre des données entre systèmes. Très utilisé avec Kafka + Hadoop.
9. Quelle commande permet de vérifier l’intégrité des données dans HDFS ?
A
hadoop fs -check
hadoop fs -check
B
hadoop fs -verify
hadoop fs -verify
C
hadoop fs -checksum
hadoop fs -checksum
D
hadoop fs -audit
hadoop fs -audit
C
La commande
hadoop fs -checksum
hadoop fs -checksum permet de calculer et d’afficher le checksum d’un fichier dans HDFS, ce qui permet de vérifier son intégrité et de s’assurer qu’il n’a pas été corrompu.
10. Que fait la commande suivante ?
Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
hadoop fs -put fichier.txt /data/
hadoop fs -put fichier.txt /data/
hadoop fs -put fichier.txt /data/
A Elle télécharge le fichier depuis HDFS vers le local
B Elle affiche le contenu du fichier.txt
C Elle copie le fichier local vers le répertoire HDFS /data/
D Elle compresse le fichier et le stocke dans /data/
C
hadoop fs -put
hadoop fs -put est utilisée pour envoyer un fichier local dans HDFS. Exemple: