QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 14

avril 11, 2025avril 12, 2025 Thomas Aucun commentaire

Questions d’Entretien sur Big Data avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur Big Data comprennent divers sujets tel que les principes de base du Big Data, Hadoop, l’écosystème et ses composants, l’analyse, Hypervisor, etc… Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur Big Data.

1. Que fait la commande suivante en Hive ?

CREATE EXTERNAL TABLE logs (...);

A Elle crée une table dont les données sont stockées dans Hive

B Elle crée une table temporaire

C Elle crée une table liée à des données déjà existantes dans HDFS

D Elle importe des logs Apache depuis un serveur web

Une table EXTERNAL en Hive permet de pointer vers des fichiers déjà présents dans HDFS. Les données ne seront pas supprimées si la table est supprimée.

2. Qu’est-ce que « Hadoop DistCp (Distributed Copy) » ?

A Un outil pour distribuer des fichiers de configuration aux nœuds du cluster.

B Un outil pour copier de gros volumes de données en parallèle entre des clusters Hadoop ou entre HDFS et d’autres systèmes de fichiers distribués.

C Un outil pour distribuer des tâches MapReduce sur le cluster.

D Un outil pour visualiser la distribution des données dans HDFS.

Hadoop DistCp est un outil puissant pour la copie de données à grande échelle dans un environnement Hadoop. Il utilise MapReduce en interne pour distribuer la tâche de copie sur plusieurs nœuds, ce qui permet de transférer de grandes quantités de données de manière efficace et parallèle.

3. Que permet la commande suivante ?

hadoop fs -du -h /data/

A Supprimer le répertoire /data/

B Compresser les fichiers dans /data/

C Afficher la taille des fichiers dans /data/, en format lisible (Ko, Mo, Go)

D Démarrer le NameNode sur le dossier /data/

-du = disk usage. L’option -h rend le format humainement lisible (1.2G, 355M, etc.)

4. Qu’est-ce que « Hadoop Balancer » ?

A Un outil pour équilibrer la charge de travail des tâches MapReduce sur les nœuds du cluster.

B Un outil pour équilibrer l’utilisation de l’espace disque entre les DataNodes dans HDFS en déplaçant des blocs de données d’un nœud à un autre.

C Un outil pour équilibrer le trafic réseau entre les différents composants du cluster.

D Un outil pour équilibrer l’utilisation de la mémoire sur les nœuds YARN.

Le Hadoop Balancer est un utilitaire qui permet de redistribuer les blocs de données dans HDFS afin d’assurer une utilisation plus uniforme de l’espace disque sur tous les DataNodes du cluster. Cela permet d’éviter les situations où certains nœuds sont presque pleins tandis que d’autres ont beaucoup d’espace libre, ce qui peut impacter les performances et la capacité du cluster.

5. Que fait la commande Hive suivante ?

LOAD DATA INPATH '/logs/access.log' INTO TABLE web_logs;

A Elle copie le fichier local dans HDFS

B Elle copie le fichier dans la table Hive

C Elle déplace le fichier HDFS vers le dossier de la table Hive

D Elle convertit le fichier en format ORC

LOAD DATA INPATH déplace le fichier situé dans HDFS vers le dossier géré par Hive (souvent /user/hive/warehouse/nom_table).

6. Quelle est l’architecture correcte de HDFS ?

A Client → TaskTracker → DataNode

B Client → NameNode → DataNode

C Client → ResourceManager → NodeManager

D Client → Hive → YARN

1- Le Client demande au NameNode où sont les blocs d’un fichier
2- Le NameNode fournit les emplacements
3- Le Client lit/écrit directement avec les DataNodes

7. Pourquoi Spark est souvent préféré à MapReduce ?

A Spark utilise moins de RAM

B Spark stocke les données dans HDFS uniquement

C Spark permet le traitement en mémoire et est plus rapide

D Spark ne supporte que le batch

Spark est plus rapide car il peut stocker les données en mémoire (RDD, DataFrame), évitant les I/O disque entre étapes. Il supporte batch, streaming, ML, SQL.

8. Quelle commande permet de changer le groupe d’un fichier dans HDFS ?

A hadoop fs -chgrp

B hadoop fs -chmod

C hadoop fs -grpchange

D hadoop fs -setgroup

hadoop fs -chgrp modifie le groupe associé à un fichier ou dossier dans le HDFS. Cela est souvent utilisé dans les environnements multi-utilisateurs pour gérer les droits d’accès par groupe.

9. Qu’est-ce que « Hadoop Snapshots » dans HDFS ?

A Des copies instantanées en lecture seule d’un répertoire ou d’un fichier à un moment donné, qui peuvent être utilisées pour la récupération en cas d’erreur ou de corruption des données.

B Des copies régulières des métadonnées du NameNode.

C Des instantanés des performances du cluster à des moments spécifiques.

D Des copies compressées des données archivées.

Les Hadoop Snapshots permettent de créer des vues cohérentes et ponctuelles de l’état d’un répertoire ou d’un fichier dans HDFS. Ces snapshots sont en lecture seule et peuvent être utilisés pour restaurer des versions antérieures des données en cas de suppression accidentelle, de corruption ou d’erreurs d’application.

10. Quelle propriété Hive permet d’utiliser un moteur d’exécution différent (comme Tez ou Spark) ?

A hive.exec.runtime

B hive.query.engine

C hive.execution.mode

D hive.exec.engine

Cette propriété définit le moteur d’exécution Hive :

SET hive.exec.engine=tez;
SET hive.exec.engine=spark;
SET hive.exec.engine=mr;  -- pour MapReduce

QCMs qui pourraient vous intéresser :

1. Que fait la commande suivante en Hive ?

2. Qu’est-ce que « Hadoop DistCp (Distributed Copy) » ?

3. Que permet la commande suivante ?

4. Qu’est-ce que « Hadoop Balancer » ?

5. Que fait la commande Hive suivante ?

6. Quelle est l’architecture correcte de HDFS ?

7. Pourquoi Spark est souvent préféré à MapReduce ?

8. Quelle commande permet de changer le groupe d’un fichier dans HDFS ?

9. Qu’est-ce que « Hadoop Snapshots » dans HDFS ?

10. Quelle propriété Hive permet d’utiliser un moteur d’exécution différent (comme Tez ou Spark) ?

Vous pourrez aussi aimer

QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 2

QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 5

QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 17

Laisser un commentaire Annuler la réponse