Questions d’Entretien sur Big Data avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur Big Data comprennent divers sujets tel que les principes de base du Big Data, Hadoop, l’écosystème et ses composants, l’analyse, Hypervisor, etc… Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur Big Data.
1. Quel type de données est le mieux adapté pour une base NoSQL comme HBase ?
A Données fortement relationnelles
B Petites quantités de données
C Gros volumes, accès rapide par clé, schéma flexible
D Vidéos haute résolution
C
HBase est parfait pour des cas comme les profils utilisateurs, les logs, ou les historiques de navigation : il permet un accès rapide clé/valeur, avec une structure orientée colonnes, souple et évolutive.
2. Quelle classe Hadoop est responsable d’écrire les sorties dans un fichier après le Reduce ?
A OutputWriter
B FileWriter
C OutputFormat
D RecordWriter
D
Le RecordWriter est responsable d’écrire chaque paire clé-valeur générée par le Reducer dans le fichier de sortie. Il est utilisé par l’OutputFormat choisi.
3. Quel composant Hive permet de définir des fonctions personnalisées ?
A UDF
B UDAF
C UDTF
D Tous les précédents
D
Hive permet de créer:
UDF: User Defined Function (fonction scalaire)
UDAF: Aggregation Function (comme SUM, AVG)
UDTF: Table-Generating Function (retourne plusieurs lignes)
4. Lequel est le format de fichier binaire natif utilisé par Hadoop ?
A Parquet
B CSV compressé
C ORC
D SequenceFile
D
Un SequenceFile est un format binaire natif de Hadoop pour stocker des paires clé-valeur de manière efficace. Très utilisé comme format d’entrée ou de sortie en MapReduce.
5. Quelle commande Hadoop permet de visualiser les journaux d’un job MapReduce ?
Ahadoop logs -show
Bhadoop job -status
Chadoop job -logs
Dyarn logs -applicationId
D
La commande yarn logs -applicationId permet de récupérer les journaux des jobs exécutés sur YARN, qui est le gestionnaire de ressources dans Hadoop. Cette commande est très utile pour diagnostiquer des erreurs et obtenir des informations détaillées sur l’exécution d’un job.
6. Quel est le rôle du « Hadoop KMS (Key Management Server) » dans un environnement Hadoop sécurisé ?
A Il gère l’authentification des utilisateurs et des services via Kerberos.
B Il stocke et gère les clés de chiffrement utilisées pour chiffrer les données au repos dans HDFS et d’autres composants Hadoop.
C Il contrôle les permissions d’accès aux fichiers et aux répertoires via les ACLs.
D Il assure l’intégrité des données en vérifiant les checksums.
B
Le Hadoop Key Management Server (KMS) est un composant centralisé pour la gestion des clés de chiffrement dans un environnement Hadoop sécurisé. Il permet de stocker et de gérer les clés utilisées pour le chiffrement transparent des données au repos dans HDFS (Transparent Data Encryption – TDE) et potentiellement dans d’autres composants de l’écosystème Hadoop.
7. Quelle stratégie Hadoop utilise-t-il pour rapprocher traitement et stockage ?
A Déplacement de fichiers vers le nœud le plus rapide
B Déplacement du traitement (code) vers les nœuds contenant les données
C Traitement à distance
D Aucun, c’est Spark qui le fait
B
Hadoop maximise la performance en déplaçant le traitement vers les DataNodes qui stockent les blocs nécessaires, plutôt que de déplacer les données → data locality.
8. Qu’est-ce que « Transparent Data Encryption (TDE) » dans HDFS ?
A Une méthode pour chiffrer les communications réseau entre les nœuds Hadoop.
B Une technique pour chiffrer les données au repos dans HDFS de manière transparente pour les applications qui accèdent aux données. Les données sont chiffrées lors de l’écriture et déchiffrées lors de la lecture sans nécessiter de modifications des applications.
C Un mécanisme pour masquer les données sensibles lors de l’affichage dans les outils de gestion Hadoop.
D Une fonctionnalité pour compresser les données avant de les stocker dans HDFS afin d’économiser de l’espace disque.
B
La Transparent Data Encryption (TDE) dans HDFS permet de protéger les données sensibles en les chiffrant lorsqu’elles sont stockées sur disque. Le chiffrement et le déchiffrement sont effectués de manière transparente par HDFS, de sorte que les applications peuvent accéder aux données comme si elles n’étaient pas chiffrées, sans avoir à gérer explicitement les clés de chiffrement.
9. Quelle commande permet de changer le propriétaire d’un fichier dans HDFS ?
Ahadoop fs -chown
Bhadoop fs -chgrp
Chadoop fs -move
Dhadoop fs -setowner
A
La commande hadoop fs -chown permet de changer le propriétaire et le groupe d’un fichier ou d’un répertoire dans HDFS, similaire à la commande chown en Linux.
10. Quelle commande permet de voir l’arborescence d’un répertoire dans HDFS ?
Ahadoop fs -tree
Bhadoop fs -dir
Chadoop fs -ls -R
Dhadoop fs -listall
C
L’option -R permet une liste récursive du contenu du répertoire et de ses sous-répertoires dans HDFS. Exemple: hadoop fs -ls -R /user/hadoop/