Questions d’Entretien sur Big Data avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur Big Data comprennent divers sujets tel que les principes de base du Big Data, Hadoop, l’écosystème et ses composants, l’analyse, Hypervisor, etc… Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur Big Data.
1. Quelle commande permet de consulter les logs d’un job MapReduce dans Hadoop ?
Ahadoop logs <job-id>
Byarn logs -applicationId <app-id>
Cmr-job logs <job-id>
Dhdfs log view <job-id>
B
Pour consulter les logs détaillés d’un job YARN, on utilise cette commande :
2. Qu’est-ce que « Hadoop Erasure Coding » et quel est son avantage par rapport à la réplication traditionnelle ?
A Une méthode de compression plus efficace que la réplication.
B Une technique de codage qui permet de reconstruire les données perdues.
C Une méthode de chiffrement des données plus performante que la réplication.
D Une technique pour distribuer les données de manière plus uniforme sur le cluster.
B
L’Hadoop Erasure Coding est une alternative à la réplication pour assurer la tolérance aux pannes dans HDFS. Au lieu de stocker des copies complètes des blocs de données, l’erasure coding utilise des algorithmes pour générer des blocs de parité. En cas de perte de certains blocs de données ou de parité, les données originales peuvent être reconstruites à partir des blocs restants. Cela permet de réduire considérablement l’overhead de stockage par rapport à la réplication (par exemple, avec un schéma de réplication de 3, l’overhead est de 200%, tandis qu’avec l’erasure coding, il peut être bien inférieur pour une tolérance aux pannes similaire).
3. Que représente le fs.defaultFS dans le fichier core-site.xml ?
A Le système de fichiers local par défaut
B Le moteur Hive par défaut
C L’URI de base utilisé pour HDFS (hdfs://…)
D L’adresse du ResourceManager
C
fs.defaultFS définit le point d’entrée HDFS, souvent quelque chose comme:
4. Lorsqu’un fichier est stocké dans HDFS, que se passe-t-il si un DataNode tombe en panne ?
A Le fichier est définitivement perdu
B Hadoop tente de le réparer via une copie locale
C Le fichier est automatiquement supprimé
D HDFS détecte le bloc manquant et recrée automatiquement une nouvelle copie sur un autre nœud
D
Grâce à la réplication automatique, HDFS détecte que la réplication est incomplète (via le NameNode) et restaure la tolérance aux pannes en recréant un bloc perdu.
5. Quelle commande permet d’afficher toutes les commandes disponibles dans l’interface Hadoop FileSystem ?
Ahadoop fs -help
Bhadoop fs -?
Chadoop fs
Dhadoop fs --commands
A
hadoop fs -help affiche la liste complète des commandes disponibles avec des exemples. C’est très utile pour se rappeler rapidement de la syntaxe correcte ou explorer d’autres options.
6. Qu’est-ce que « Submarine » dans le contexte de YARN ?
A Un outil pour le déploiement de clusters Hadoop sur des sous-marins (blague !).
B Un projet open source qui permet d’exécuter des charges de travail de Deep Learning (TensorFlow, PyTorch, etc.) sur YARN en utilisant des conteneurs Docker.
C Un module de sécurité pour isoler les conteneurs YARN.
D Un outil pour la gestion des réseaux virtuels dans un cluster Hadoop.
B
Submarine est un projet qui vise à faciliter l’exécution de charges de travail de Deep Learning sur la plateforme YARN en utilisant la conteneurisation (Docker). Il permet de gérer les dépendances complexes des frameworks de Deep Learning et d’allouer efficacement les ressources GPU et autres ressources nécessaires au sein du cluster Hadoop.
7. Que signifie la propriété mapreduce.input.fileinputformat.split.maxsize ?
A Taille maximale des fichiers d’entrée
B Nombre max de splits autorisés
C Taille max d’un split d’entrée pour un Mapper
D Taille max d’un bloc HDFS
C
Cette propriété permet de contrôler la taille maximale d’un split, et donc le nombre de Mappers utilisés. Une valeur trop basse crée trop de Mappers → surcharge.
8. Quelle commande permet de tester la connectivité et le bon fonctionnement du NameNode ?
Ahadoop namenode -ping
Bhdfs dfsadmin -report
Chdfs fsck /
Dhadoop dfs -check
C
hdfs fsck / permet de vérifier l’intégrité du système de fichiers HDFS. Elle montre notamment si certains blocs sont corrompus ou manquants, ce qui est important pour le bon fonctionnement du NameNode.
9. Quelle méthode utilise Hadoop pour assurer la tolérance aux pannes dans HDFS ?
A RAID 1 logiciel
B Clustering actif-passif
C Réplication de blocs sur plusieurs DataNodes
D Compression des blocs
C
Chaque bloc HDFS est répliqué (par défaut 3x) sur différents nœuds pour garantir la disponibilité même en cas de panne.
10. Dans Hive, que fait la commande suivante ?
INSERT OVERWRITE TABLE ventes SELECT * FROM ventes_temp;
A Elle ajoute les nouvelles lignes à la table
B Elle écrase complètement la table ventes avec les données de ventes_temp
C Elle met à jour les lignes modifiées
D Elle crée une vue temporaire
B
INSERT OVERWRITE remplace l’ensemble du contenu de la table cible. C’est utile pour des tables de faits ou des agrégats mis à jour régulièrement.