Questions d’Entretien sur Big Data avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur Big Data comprennent divers sujets tel que les principes de base du Big Data, Hadoop, l’écosystème et ses composants, l’analyse, Hypervisor, etc… Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur Big Data.
1. Que permet le fichier core-site.xml dans Hadoop ?
A Définir les tâches MapReduce
B Configurer les propriétés réseau du cluster (URI HDFS, sécurité, etc.)
C Lancer le ResourceManager
D Stocker les logs des jobs
B
core-site.xml contient les paramètres globaux utilisés par tous les composants Hadoop, comme le fs.defaultFS (URI HDFS), la sécurité, le buffer, etc.
2. Qu’est-ce que « Hadoop Federation » ?
A Une fonctionnalité pour combiner plusieurs clusters Hadoop en un seul cluster logique.
B Une amélioration de HDFS qui permet de partager l’espace de noms entre plusieurs NameNodes indépendants.
C Un mécanisme pour fédérer les ressources de calcul de plusieurs clusters YARN.
D Un outil pour la gestion centralisée de la sécurité à travers plusieurs clusters Hadoop.
B
Hadoop Federation permet de résoudre les problèmes de scalabilité du NameNode unique dans les grandes installations HDFS. Il divise l’espace de noms HDFS en plusieurs « NameSpaces », chacun géré par un NameNode indépendant. Cela permet d’augmenter la capacité totale du système de fichiers et d’améliorer la performance.
3. Quelle commande permet de déplacer un fichier dans HDFS ?
Ahadoop fs -move
Bhadoop fs -rename
Chadoop fs -moveFromLocal
Dhadoop fs -mv
D
La commande hadoop fs -mv permet de déplacer ou renommer un fichier ou un répertoire dans HDFS, similaire à la commande mv en Linux.
4. Qu’est-ce que « Hadoop High Availability (HA) » pour le NameNode ?
A Une configuration qui permet à plusieurs NameNodes de fonctionner en parallèle pour augmenter la performance.
B Une configuration qui utilise un NameNode de secours (Standby Node) qui prend automatiquement le relais en cas de défaillance du NameNode actif, assurant ainsi la continuité du service HDFS.
C Un mécanisme pour répliquer les données du NameNode sur plusieurs DataNodes.
D Une fonctionnalité qui permet aux applications d’accéder à HDFS même en cas de panne réseau partielle.
B
Hadoop High Availability (HA) pour le NameNode est une configuration qui élimine le point de défaillance unique du NameNode unique. Elle utilise un NameNode actif et un ou plusieurs NameNodes de secours qui sont synchronisés avec l’actif. En cas de défaillance de l’actif, un des secours prend automatiquement le relais, minimisant ainsi les temps d’arrêt d’HDFS.
5. Quel est l’équivalent d’une requête SQL GROUP BY dans le modèle MapReduce ?
A Mapper
B Combiner
C Reducer
D RecordReader
C
Dans MapReduce, c’est le Reducer qui regroupe les données par clé, comme le ferait un GROUP BY en SQL. Chaque clé devient une ligne d’agrégation à traiter.
6. Que fait Hive lorsqu’il exécute une requête SQL ?
A Elle l’exécute directement sur une base relationnelle
B Elle la convertit en script Pig
C Elle la convertit en job MapReduce ou Tez/Spark
D Elle écrit les résultats dans HBase
C
Hive convertit les requêtes SQL en jobs exécutables sur Hadoop. Selon le moteur utilisé, cela peut être MapReduce, Tez, ou Spark.
7. Qu’est-ce que « Hadoop Security » et quels sont ses principaux aspects ?
A L’ensemble des fonctionnalités et des configurations visant à sécuriser un cluster Hadoop, incluant l’authentification (Kerberos), l’autorisation (ACLs), l’intégrité des données (checksums) et la confidentialité (chiffrement).
B Un module pour optimiser les performances des tâches MapReduce.
C Un outil pour la surveillance de l’état et des performances du cluster.
D Une méthode pour compresser les données avant de les stocker dans HDFS.
A
Hadoop Security englobe les mesures prises pour protéger un cluster Hadoop contre les accès non autorisés et les manipulations de données. Ses principaux aspects incluent l’authentification (vérification de l’identité des utilisateurs et des services), l’autorisation (contrôle de l’accès aux ressources), l’intégrité des données (vérification que les données n’ont pas été altérées) et la confidentialité (protection des données sensibles par le chiffrement).
8. Quelle commande permet de synchroniser un fichier local avec HDFS ?
Ahadoop fs -sync
Bhadoop fs -put
Chadoop fs -copyToLocal
Dhadoop fs -copyFromLocal
B
La commande hadoop fs -put permet de copier un fichier local dans HDFS. Cela peut être vu comme une sorte de « synchronisation » des fichiers depuis le système local vers HDFS.
9. Qu’est-ce que les « Access Control Lists (ACLs) » dans HDFS ?
A Des quotas d’espace disque imposés aux utilisateurs.
B Des journaux d’audit qui enregistrent toutes les tentatives d’accès aux données.
C Des listes qui contiennent les adresses IP des clients autorisés à accéder au cluster.
D Des mécanismes pour contrôler les permissions d’accès (lecture, écriture, exécution) aux fichiers et aux répertoires dans HDFS au niveau des utilisateurs et des groupes.
D
Les Access Control Lists (ACLs) dans HDFS fournissent un mécanisme plus fin et plus flexible pour la gestion des permissions d’accès que le modèle de permissions POSIX traditionnel. Elles permettent de spécifier des permissions pour des utilisateurs et des groupes spécifiques, en plus des permissions pour le propriétaire, le groupe et les autres.
10. Quel composant est responsable de l’exécution physique des conteneurs YARN sur les nœuds ?
A ApplicationMaster
B ResourceManager
C NodeManager
D TaskTracker
C
Chaque nœud a un NodeManager qui gère l’exécution des containers (processus isolés contenant les tâches Map, Reduce, Spark, etc.) et rapporte leur statut au ResourceManager.