QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 7

Questions d’Entretien sur Big Data avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur Big Data comprennent divers sujets tel que les principes de base du Big Data, Hadoop, l’écosystème et ses composants, l’analyse, Hypervisor, etc… Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur Big Data.
 
 

1. Quelle commande permet de copier un fichier depuis HDFS vers le système local ?

A hadoop fs -copyFromLocal

B hadoop fs -get

C hadoop fs -moveFromLocal

D hadoop fs -pull

B
La commande hadoop fs -get permet de copier un fichier depuis HDFS vers le système local. Elle fonctionne de manière similaire à cp en Linux.

 

 

2. Qu’est-ce que la « localité des données » (data locality) dans Hadoop et pourquoi est-ce important ?

A La proximité physique des serveurs dans le cluster.

B La préférence de MapReduce pour traiter les données sur le même nœud où elles sont stockées dans HDFS.

C La capacité de Hadoop à traiter des données locales (sur le même disque).

D La configuration régionale du cluster Hadoop.

B
La localité des données est un principe clé dans Hadoop où le framework essaie d’exécuter les tâches de map sur les nœuds où résident les blocs de données à traiter. Cela minimise le transfert de données sur le réseau, ce qui améliore considérablement les performances.

 

 

3. Quel est un inconvénient potentiel de l’architecture Hadoop MapReduce pour les tâches nécessitant de nombreuses itérations (comme certains algorithmes de machine learning) ?

A L’incapacité à gérer des données non structurées.

B La surcharge liée au démarrage et à la fin de chaque tâche MapReduce.

C La limitation à un seul langage de programmation (Java).

D Le coût élevé du matériel requis.

B
Pour les tâches itératives, chaque itération dans MapReduce nécessite le lancement d’un nouveau travail MapReduce, ce qui entraîne une surcharge significative due au démarrage et à la fin de chaque tâche (lancement des JVM, planification des tâches, etc.). Des frameworks comme Spark, qui peuvent maintenir les données en mémoire entre les itérations, sont plus efficaces pour ces types de charges de travail.

 

 
 

4. Quelle commande permet de voir le contenu d’un fichier dans HDFS ?

A hadoop fs -cat

B hadoop fs -read

C hadoop fs -open

D hadoop fs -print

A
La commande hadoop fs -cat permet d’afficher le contenu d’un fichier HDFS dans la console. Exemple: hadoop fs -cat /user/hadoop/monfichier.txt

 

 

5. Quel est le rôle du fichier hdfs-site.xml dans la configuration de Hadoop ?

A Il contient les configurations spécifiques au framework MapReduce.

B Il définit les propriétés de YARN (Yet Another Resource Negotiator).

C Il configure les propriétés du système de fichiers distribué HDFS, telles que le facteur de réplication et les adresses des NameNode et DataNodes.

D Il spécifie les paramètres de configuration pour Hive.

C
Le fichier hdfs-site.xml est un fichier de configuration central pour HDFS. Il contient des paramètres importants qui contrôlent le comportement du système de fichiers distribué, y compris le nombre de copies de chaque bloc de données (facteur de réplication), les adresses des serveurs NameNode et DataNode, et d’autres options spécifiques à HDFS.

 

 

6. Quel est le rôle du fichier mapred-site.xml (ou yarn-site.xml dans Hadoop 2.x) dans la configuration de Hadoop ?

A Il configure les propriétés du système de fichiers distribué HDFS.

B Il définit les paramètres spécifiques au framework MapReduce (dans Hadoop 1.x) ou à YARN (dans Hadoop 2.x), y compris la gestion des ressources et la planification des tâches.

C Il contient les informations d’identification pour accéder aux bases de données externes via Sqoop.

D Il spécifie les paramètres de configuration pour Hive.

B
Le fichier mapred-site.xml (ou yarn-site.xml dans les versions plus récentes) contient les configurations liées à l’exécution des tâches de traitement. Dans Hadoop 1.x, il configurait le JobTracker et les TaskTrackers. Dans Hadoop 2.x (avec YARN), il configure le ResourceManager et les NodeManagers, ainsi que d’autres paramètres de gestion des ressources.

 

 
 

7. Quelle commande permet de compresser les fichiers de sortie dans un job MapReduce ?

A mapreduce.output.compress=true

B hdfs.output.compress=true

C mapreduce.compress.output=true

D mapreduce.file.output.compress=true

A
Pour compresser les résultats de sortie d’un job MapReduce, on définit la propriété suivante dans la configuration:

<property>
  <name>mapreduce.output.compress</name>
  <value>true</value>
</property>

 

 

8. Que fait la commande suivante ?
hadoop fs -getmerge /logs/2024/ logs.txt

A Elle récupère tous les fichiers du répertoire /logs/2024/ et les fusionne localement dans logs.txt

B Elle copie un seul fichier de HDFS vers le système local

C Elle supprime le répertoire /logs/2024/ après fusion

D Elle compresse tous les fichiers en logs.txt.gz

A
-getmerge permet de fusionner plusieurs fichiers d’un répertoire HDFS en un seul fichier local, ce qui est très pratique pour les résultats répartis sur plusieurs fichiers (souvent en sortie de Reduce).

 

 

9. Qu’est-ce que le mode « Safe Mode » dans HDFS ?

A Un mode de fonctionnement haute performance pour les opérations de lecture seule.

B Un état dans lequel le NameNode se trouve au démarrage, pendant lequel il collecte les informations sur les blocs de données auprès des DataNodes et ne permet aucune modification du système de fichiers.

C Un mode de chiffrement des données au repos dans HDFS.

D Un mécanisme pour isoler les tâches MapReduce les unes des autres.

B
Le Safe Mode est une phase que traverse le NameNode au démarrage. Pendant ce temps, il attend que les DataNodes rapportent les blocs qu’ils contiennent. Le NameNode n’autorise aucune modification du système de fichiers tant qu’il n’a pas reçu un nombre suffisant de rapports de blocs pour s’assurer de l’intégrité des données.

 

 
 

10. Quel est le rôle du « RecordReader » dans MapReduce ?

A Il écrit les paires clé-valeur de sortie du mapper.

B Il écrit les paires clé-valeur de sortie du reducer.

C Il lit les InputSplits créés par l’InputFormat et transforme les données brutes en paires clé-valeur qui sont ensuite traitées par le mapper.

D Il trie et regroupe les sorties des mappers avant de les envoyer aux reducers.

C
Le RecordReader travaille en collaboration avec l’InputFormat. Il est responsable de la lecture des données à partir de l’InputSplit et de leur conversion en paires clé-valeur (clé d’entrée et valeur d’entrée) qui sont ensuite fournies à la fonction map() du mapper.

 

 

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *