QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 9

avril 10, 2025avril 12, 2025 Thomas Aucun commentaire

Questions d’Entretien sur Big Data avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur Big Data comprennent divers sujets tel que les principes de base du Big Data, Hadoop, l’écosystème et ses composants, l’analyse, Hypervisor, etc… Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur Big Data.

1. Quelle est la principale fonction du protocole RPC (Remote Procedure Call) dans Hadoop ?

A Le stockage distribué des blocs de données dans HDFS.

B La communication entre les différents composants du cluster Hadoop (NameNode, DataNodes, ResourceManager, NodeManagers, etc.)

C L’exécution parallèle des tâches MapReduce sur les DataNodes.

D L’interface utilisateur web pour la gestion du cluster.

Le Remote Procedure Call (RPC) est un protocole fondamental utilisé par les différents composants de Hadoop pour communiquer entre eux. Par exemple, les DataNodes communiquent avec le NameNode via RPC pour signaler leur état et les blocs qu’ils contiennent, et le ResourceManager communique avec les NodeManagers pour allouer et gérer les ressources.

2. Qu’est-ce que le « rack awareness » dans Hadoop et pourquoi est-ce important ?

A La capacité de Hadoop à détecter le type de matériel (rack) sur lequel il s’exécute pour optimiser les performances.

B La capacité de Hadoop à distribuer les répliques des blocs de données sur différents racks au sein du centre de données pour améliorer la tolérance aux pannes en cas de défaillance d’un rack entier.

C La fonctionnalité de Hadoop pour suivre l’utilisation des ressources par rack.

D L’interface utilisateur qui affiche l’état des différents racks du cluster.

Le rack awareness est une fonctionnalité de Hadoop qui permet de prendre en compte la topologie du réseau du centre de données lors de la distribution des blocs de données. En plaçant les répliques sur des racks différents, Hadoop améliore la disponibilité des données en cas de panne d’un commutateur réseau ou d’une coupure d’alimentation affectant un rack entier.

3. Lequel des suivants n’est pas un composant natif de Hadoop ?

A YARN

B Spark

C MapReduce

D HDFS

Apache Spark est un projet à part, bien qu’il puisse s’exécuter sur Hadoop via YARN. Les composants natifs d’Hadoop sont HDFS, YARN et MapReduce.

4. Que signifie la propriété `dfs.replication` dans la configuration Hadoop ?

A Le nombre de réplications d’un bloc dans MapReduce

B Le nombre de fichiers copiés en local

C Le nombre de copies de chaque bloc de données dans HDFS

D Le niveau de compression appliqué aux fichiers

La propriété dfs.replication (souvent définie dans hdfs-site.xml) indique combien de fois chaque bloc est dupliqué dans le cluster. La valeur par défaut est 3, pour assurer la tolérance aux pannes.

5. Quel est le rôle du « TaskTracker » dans l’ancienne architecture MapReduce (Hadoop 1.x) ?

A Il gérait l’allocation des ressources du cluster.

B Il stockait les métadonnées des fichiers dans HDFS.

C Il fournissait une interface SQL pour interroger les données.

D Il exécutait les tâches individuelles (mappers et reducers) sur les nœuds de travail sous la supervision du JobTracker.

Dans Hadoop 1.x, le TaskTracker s’exécutait sur chaque nœud de travail et était responsable du lancement et de la surveillance des tâches MapReduce (mappers et reducers) qui lui étaient assignées par le JobTracker. Il communiquait régulièrement avec le JobTracker pour signaler l’état des tâches.

6. Qu’est-ce que le « NodeManager » dans l’architecture YARN (Hadoop 2.x et suivantes) ?

A L’équivalent du JobTracker dans l’ancienne architecture.

B L’équivalent du NameNode dans l’ancienne architecture.

C Un agent qui s’exécute sur chaque nœud de travail et est responsable de la gestion des ressources (CPU, mémoire, disque, réseau) allouées aux containers par le ResourceManager et de la surveillance de leur utilisation.

D Un service centralisé pour la gestion de la sécurité du cluster.

Le NodeManager est le composant de YARN qui s’exécute sur chaque nœud de travail. Il gère les ressources disponibles sur ce nœud et est responsable du lancement et de la surveillance des containers alloués par le ResourceManager pour exécuter les tâches des applications.

7. Quelle commande est utilisée pour afficher l’utilisation du disque dans HDFS ?

A hadoop fs -du

B hadoop fs -disk

C hadoop fs -df

D hadoop fs -space

La commande hadoop fs -du permet d’afficher l’utilisation de l’espace disque pour un fichier ou un répertoire dans HDFS. C’est similaire à la commande du en Linux.

8. Quelle commande permet de changer les permissions sur un fichier HDFS ?

A hadoop fs -chmod

B hadoop fs -chperm

C hadoop fs -access

D hadoop fs -setperm

On peut modifier les permissions UNIX-like sur des fichiers HDFS avec :

hadoop fs -chmod 755 /user/hadoop/mon_fichier.txt

9. Quel est le rôle de la « FileSystem API » de Hadoop ?

A Elle permet d’interagir avec les bases de données NoSQL depuis les tâches MapReduce.

B Elle fournit une interface abstraite pour accéder à différents systèmes de fichiers (HDFS, S3, etc.) de manière uniforme depuis les applications Hadoop.

C Elle permet de visualiser les données stockées dans HDFS.

D Elle gère la sécurité et les permissions des fichiers dans HDFS.

La FileSystem API de Hadoop offre une abstraction qui permet aux applications Hadoop d’interagir avec différents systèmes de fichiers sans avoir à se soucier des détails d’implémentation spécifiques à chaque système. Cela permet de lire et d’écrire des données aussi bien dans HDFS que dans d’autres systèmes de fichiers compatibles (comme Amazon S3, Azure Blob Storage, etc.) en utilisant les mêmes API.

10. Que permet la commande `hadoop fsck /` ?

A Vérifie l’intégrité du fichier système local

B Corrige les erreurs du système de fichiers local

C Vérifie l’intégrité des blocs HDFS (fichiers manquants, corrompus, sous-répliqués)

D Réinitialise le cluster Hadoop

fsck (file system check) permet d’inspecter l’état de HDFS, utile pour détecter des blocs corrompus, des fichiers incomplets ou non répliqués correctement.

QCMs qui pourraient vous intéresser :

1. Quelle est la principale fonction du protocole RPC (Remote Procedure Call) dans Hadoop ?

2. Qu’est-ce que le « rack awareness » dans Hadoop et pourquoi est-ce important ?

3. Lequel des suivants n’est pas un composant natif de Hadoop ?

4. Que signifie la propriété dfs.replication dans la configuration Hadoop ?

5. Quel est le rôle du « TaskTracker » dans l’ancienne architecture MapReduce (Hadoop 1.x) ?

6. Qu’est-ce que le « NodeManager » dans l’architecture YARN (Hadoop 2.x et suivantes) ?

7. Quelle commande est utilisée pour afficher l’utilisation du disque dans HDFS ?

8. Quelle commande permet de changer les permissions sur un fichier HDFS ?

9. Quel est le rôle de la « FileSystem API » de Hadoop ?

10. Que permet la commande hadoop fsck / ?

Vous pourrez aussi aimer

QCM sur Big Data corrigé – Principes de base – Partie 3

QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 21

QCM sur Big Data corrigé – Principes de base – Partie 7

Laisser un commentaire Annuler la réponse

4. Que signifie la propriété `dfs.replication` dans la configuration Hadoop ?

10. Que permet la commande `hadoop fsck /` ?