Questions d’Entretien sur Big Data avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur Big Data comprennent divers sujets tel que les principes de base du Big Data, Hadoop, l’écosystème et ses composants, l’analyse, Hypervisor, etc… Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur Big Data.
1. Qu’est-ce qu’un « InputSplit » dans MapReduce ?
A La taille de bloc de données lue par un mapper.
B Une division logique des données d’entrée qui est assignée à un mapper pour le traitement.
C Le résultat intermédiaire produit par un mapper.
D La configuration du travail MapReduce.
B
Un InputSplit représente une unité de travail pour un mapper. L’InputFormat est responsable de diviser les données d’entrée en plusieurs InputSplits, et chaque mapper traite un InputSplit de manière indépendante.
2. Quelle interface Hadoop permet d’interagir avec HDFS en utilisant des commandes similaires à celles des systèmes de fichiers Unix/Linux ?
A HiveQL
B Pig Latin
C HDFS CLI (Command Line Interface)
D MapReduce API
C
L’HDFS CLI fournit un ensemble de commandes (comme ls, mkdir, put, get, etc.) qui permettent aux utilisateurs d’explorer et de manipuler les fichiers et les répertoires stockés dans HDFS.
3. Dans HDFS, quel mécanisme permet de tolérer les pannes de nœuds ?
A Load balancing
B Clustering
C Réplication des blocs
D Fragmentation des fichiers
C
Pour assurer la haute disponibilité et la tolérance aux pannes, HDFS réplique chaque bloc de données sur plusieurs nœuds (par défaut: 3 copies). Si un nœud échoue, les blocs sont récupérables ailleurs.
4. Quel est le rôle de l’InputFormat dans un Job MapReduce ?
A Définir la logique de la fonction map.
B Définir la logique de la fonction reduce.
C Diviser les données d’entrée en InputSplits et fournir des enregistrements aux mappers via un RecordReader.
D Écrire les données de sortie dans HDFS via un RecordWriter.
C
L’InputFormat est responsable de la manière dont les données d’entrée sont divisées et lues par les mappers. Il crée des InputSplits et fournit un RecordReader qui permet de lire les enregistrements individuels à partir de chaque InputSplit.
5. Quel est le rôle de l’OutputFormat dans un Job MapReduce ?
A Définir le format des données d’entrée.
B Définir la logique de la fonction map.
C Définir la logique de la fonction reduce.
D Définir le format et la destination des données de sortie via un RecordWriter.
D
L’OutputFormat spécifie comment les résultats du reducer doivent être écrits dans le système de stockage (généralement HDFS). Il fournit un RecordWriter qui est utilisé pour écrire les paires clé-valeur de sortie dans le format souhaité.
6. Quel est le rôle du Combiner dans MapReduce ?
A Il trie les résultats finaux
B Il regroupe les résultats de tous les reducers
C Il effectue une agrégation locale pour réduire le volume de données transféré au reducer
D Il convertit les résultats du mapper en format JSON
C
Le Combiner agit comme un mini-reducer, localement sur les sorties du Mapper, pour optimiser le traitement en réduisant la quantité de données envoyée au Reducer. Très utile pour les opérations comme les totaux ou les moyennes.
7. Dans YARN, quelle est la tâche de l’ApplicationMaster ?
A Gérer l’ensemble des ressources du cluster
B Lancer les containers et gérer l’exécution d’une application spécifique
C Superviser les logs de toutes les applications
D Assigner les tâches MapReduce aux DataNodes
B
Chaque job soumis à YARN a son propre ApplicationMaster, qui gère les containers nécessaires, le suivi des tâches, et la récupération en cas d’échec. Il communique avec le ResourceManager pour obtenir des ressources.
8. Quel type de données est le mieux adapté pour HBase ?
A Données relationnelles avec schéma fixe
B Données volumineuses avec accès aléatoire et faible latence
C Petits fichiers JSON
D Données audio ou vidéo
B
HBase est conçu pour gérer de très grandes quantités de données avec un accès rapide en lecture/écriture. C’est une base NoSQL orientée colonnes, parfaite pour des cas d’usage comme les logs, les profils utilisateurs, ou les historiques de clics.
9. Quel est l’effet du paramètre mapred.reduce.tasks dans un job Hadoop ?
A Il définit le nombre de Mapper à utiliser
B Il détermine le niveau de compression appliqué
C Il définit le nombre de tâches Reduce à exécuter
D Il contrôle la réplication des blocs dans HDFS
C
Le paramètre mapred.reduce.tasks (ou son équivalent moderne dans YARN: mapreduce.job.reduces) permet de configurer le nombre de Reduce utilisés pour un job MapReduce. Un mauvais réglage peut affecter les performances globales du job.
10. Quelle est l’une des limites d’HDFS concernant la gestion des petits fichiers ?
A Il ne supporte que les formats binaires
B Il compresse automatiquement les fichiers
C Il surcharge le NameNode avec des millions de petits fichiers
D Il efface automatiquement les petits fichiers non utilisés
C
Chaque fichier dans HDFS est géré par le NameNode, qui conserve ses métadonnées en mémoire. Avoir trop de petits fichiers provoque une surcharge mémoire du NameNode. Hadoop est plus performant avec moins de gros fichiers qu’avec plein de petits.