QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 21

Questions d’Entretien sur Big Data avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur Big Data comprennent divers sujets tel que les principes de base du Big Data, Hadoop, l’écosystème et ses composants, l’analyse, Hypervisor, etc… Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur Big Data.
 
 

1. Quelle propriété configure le nom du cluster YARN dans yarn-site.xml ?

A yarn.cluster.name

B yarn.resourcemanager.cluster-id

C yarn.namenode.cluster

D yarn.resource.name

B
Utilisé notamment en haute dispo pour distinguer plusieurs clusters :

<property>
  <name>yarn.resourcemanager.cluster-id</name>
  <value>cluster-ha-1</value>
</property>

 

 

2. En Hive, LIMIT 10 s’applique :

A Avant le tri

B Après toutes les transformations

C Immédiatement après le FROM

D Avant la clause WHERE

B
La clause LIMIT est la dernière à s’appliquer. Donc elle ne garantit pas de performance à elle seule si elle est utilisée sans tri ou filtre.

 

 

3. Quelle directive dans Spark permet de forcer l’exécution immédiate d’un DAG paresseux ?

A load()

B collect()

C printSchema()

D persist()

B
Spark est paresseux (lazy) : rien ne s’exécute tant qu’une action comme collect(), count(), show() n’est appelée. collect() déclenche l’exécution complète du DAG.

 

 
 

4. En Spark, que fait l’opérateur filter() sur un RDD ou un DataFrame ?

A Regroupe les données

B Trie les données

C Compresse les données

D Applique un filtre booléen et ne garde que les lignes qui passent

D
filter() est une transformation qui applique une fonction de prédicat pour sélectionner uniquement les éléments désirés: rdd.filter(x => x > 10)

 

 

5. Dans Hive, le mot-clé ROW FORMAT DELIMITED est utilisé pour _________

A Créer une table compressée

B Définir le format de ligne d’un fichier texte (ex : séparateur de colonnes)

C Créer des vues

D Activer la sérialisation Avro

B
Cette clause permet à Hive de comprendre comment parser les lignes:

ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' 

 

 

6. Que permet --incremental append dans une importation Sqoop ?

A Écrase les données précédentes

B Met à jour les lignes modifiées

C Importe uniquement les nouvelles lignes basées sur une colonne incrémentale

D Lance un import multithread

C
Avec --check-column id --incremental append --last-value 100, Sqoop importe les lignes avec id > 100 uniquement. Super utile pour des imports quotidiens.

 

 
 

7. En Spark, que fait .persist(StorageLevel.MEMORY_ONLY) ?

A Sauvegarde les données dans HDFS

B Garde les données en mémoire uniquement, sans fallback sur disque

C Compresse les données sur disque

D Ne change rien au comportement de Spark

B
MEMORY_ONLY → rapide, mais risque de recalcul si la mémoire est insuffisante. À ne pas confondre avec MEMORY_AND_DISK.

 

 

8. Quelle propriété dans hdfs-site.xml configure le facteur de réplication par défaut ?

A dfs.replication.default

B hdfs.replication

C dfs.replication

D hdfs.block.replication

C
Exemple de configuration :

<property>
  <name>dfs.replication</name>
  <value>3</value>
</property>

→ chaque bloc HDFS est stocké sur 3 DataNodes par défaut.

 

 

9. Quelle commande Spark est une action et non une transformation ?

A map()

B filter()

C flatMap()

D count()

D
count() déclenche l’exécution → c’est une action Spark. Les autres (map, filter, etc.) sont des transformations paresseuses.

 

 
 

10. En Hive, comment créer une table temporaire utilisable uniquement dans la session active ?

A CREATE SESSION TABLE

B CREATE TEMP TABLE

C CREATE TEMPORARY TABLE

D CREATE TABLE TEMP

C
Les tables temporaires sont stockées en mémoire, limitées à la session actuelle :

CREATE TEMPORARY TABLE t_temp (id INT, nom STRING);

 

 

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *