Questions d’Entretien sur Big Data avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur Big Data comprennent divers sujets tel que les principes de base du Big Data, Hadoop, l’écosystème et ses composants, l’analyse, Hypervisor, etc… Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur Big Data.
1. Qu’est-ce que le « shuffle and sort » dans le flux de travail MapReduce ?
A L’étape où les données d’entrée sont divisées et distribuées aux mappers.
B L’étape où les résultats finaux sont écrits dans HDFS.
C L’étape intermédiaire où les sorties des mappers sont triées et regroupées par clé avant d’être envoyées aux reducers.
D L’étape où les ressources du cluster sont allouées aux tâches.
C
Le shuffle and sort est une étape cruciale entre la phase de map et la phase de reduce. Les paires clé-valeur produites par les mappers sont triées par clé et toutes les valeurs associées à une même clé sont regroupées et envoyées au même reducer.
2. Quel outil de l’écosystème Hadoop est une base de données NoSQL orientée colonnes, conçue pour un accès aléatoire en temps réel aux données ?
A Hive
B HBase
C Pig
D Flume
B
HBase est une base de données NoSQL distribuée qui s’exécute au-dessus de HDFS. Elle est optimisée pour les opérations de lecture et d’écriture aléatoires et offre une haute disponibilité.
3. Quelle est la différence entre HDFS et un système de fichiers traditionnel ?
A HDFS est plus rapide car il est en mémoire
B HDFS distribue les fichiers sur plusieurs nœuds pour améliorer la tolérance aux pannes
C HDFS permet d’exécuter des requêtes SQL directement sur les fichiers
D HDFS est moins sécurisé qu’un système de fichiers traditionnel
B
Contrairement aux systèmes de fichiers traditionnels, HDFS distribue les fichiers sur plusieurs nœuds et réplique les blocs pour assurer la tolérance aux pannes. Cela permet une grande scalabilité et résilience des données.
4. Quel outil de l’écosystème Hadoop est conçu pour collecter, agréger et déplacer efficacement de grandes quantités de données de flux (streaming data) vers HDFS ?
A Sqoop
B Flume
C Mahout
D Oozie
B
Flume est un service distribué et fiable pour la collecte, l’agrégation et le déplacement de données de flux provenant de nombreuses sources vers un stockage centralisé comme HDFS.
5. Quelle est la principale différence entre Hadoop 1.x et Hadoop 2.x ?
A Hadoop 2.x utilise YARN pour la gestion des ressources, contrairement à Hadoop 1.x
B Hadoop 1.x est plus rapide que Hadoop 2.x
C Hadoop 2.x ne supporte pas MapReduce
D Hadoop 1.x ne peut pas traiter des données structurées
A
La principale différence entre Hadoop 1.x et 2.x réside dans le système de gestion des ressources. Hadoop 2.x introduit YARN (Yet Another Resource Negotiator), qui permet de mieux gérer les ressources et de supporter d’autres frameworks de calcul (comme Spark) en plus de MapReduce.
6. Qu’est-ce qu’un « block » dans HDFS ?
A Un ensemble de métadonnées pour chaque fichier
B Un petit fichier de données
C La plus petite unité de stockage dans HDFS
D Une unité de traitement dans MapReduce
C
Dans HDFS, un block est la plus petite unité de stockage de données, généralement de 128 Mo par défaut. Les fichiers sont divisés en plusieurs blocs pour être stockés sur différents nœuds du cluster.
7. Quelle est la fonction du « Secondary NameNode » dans HDFS ?
A Gérer la réplication des données
B Répliquer les blocs de données dans le cluster
C Sauvegarder les métadonnées du NameNode pour réduire la charge de travail du NameNode
D Stocker les logs de données
C
Le Secondary NameNode prend régulièrement des snapshots des métadonnées du NameNode et les fusionne avec le journal de transactions (edit log). Cela permet d’éviter une surcharge du NameNode et assure la continuité du système.
8. Quelle commande Hadoop permet de supprimer un fichier dans HDFS ?
Ahadoop fs -delete
Bhadoop fs -rm
Chadoop fs -remove
Dhadoop fs -del
B
La commande hadoop fs -rm permet de supprimer un fichier ou un répertoire dans HDFS. Exemple: hadoop fs -rm /user/hadoop/monfichier.txt
9. Qu’est-ce que le JobHistoryServer dans Hadoop ?
A Un serveur utilisé pour stocker les logs de MapReduce
B Un serveur utilisé pour l’exécution des jobs MapReduce
C Un serveur qui gère les ressources des nœuds
D Un serveur qui archive les métadonnées du NameNode
A
Le JobHistoryServer est utilisé pour stocker et fournir l’accès aux logs des jobs MapReduce terminés. Cela permet aux utilisateurs de consulter l’historique des tâches exécutées.
10. Quel est le format de stockage des données par défaut dans HDFS ?
A CSV
B Avro
C Parquet
D Aucun format spécifique, HDFS est agnostique
D
HDFS est un système de stockage de fichiers brut. Il ne dicte pas de format spécifique pour les fichiers stockés. Les formats comme CSV, Parquet, Avro, etc., sont utilisés dans les outils de traitement de données comme Hive ou Pig.