QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 21

avril 12, 2025avril 12, 2025 Thomas Aucun commentaire

Questions d’Entretien sur Big Data avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur Big Data comprennent divers sujets tel que les principes de base du Big Data, Hadoop, l’écosystème et ses composants, l’analyse, Hypervisor, etc… Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur Big Data.

1. Quelle propriété configure le nom du cluster YARN dans `yarn-site.xml` ?

A yarn.cluster.name

B yarn.resourcemanager.cluster-id

C yarn.namenode.cluster

D yarn.resource.name

Utilisé notamment en haute dispo pour distinguer plusieurs clusters :

<property>
  <name>yarn.resourcemanager.cluster-id</name>
  <value>cluster-ha-1</value>
</property>

2. En Hive, `LIMIT 10` s’applique :

A Avant le tri

B Après toutes les transformations

C Immédiatement après le FROM

D Avant la clause WHERE

La clause LIMIT est la dernière à s’appliquer. Donc elle ne garantit pas de performance à elle seule si elle est utilisée sans tri ou filtre.

3. Quelle directive dans Spark permet de forcer l’exécution immédiate d’un DAG paresseux ?

A load()

B collect()

C printSchema()

D persist()

Spark est paresseux (lazy) : rien ne s’exécute tant qu’une action comme collect(), count(), show() n’est appelée. collect() déclenche l’exécution complète du DAG.

4. En Spark, que fait l’opérateur `filter()` sur un RDD ou un DataFrame ?

A Regroupe les données

B Trie les données

C Compresse les données

D Applique un filtre booléen et ne garde que les lignes qui passent

filter() est une transformation qui applique une fonction de prédicat pour sélectionner uniquement les éléments désirés: rdd.filter(x => x > 10)

5. Dans Hive, le mot-clé `ROW FORMAT DELIMITED` est utilisé pour _________

A Créer une table compressée

B Définir le format de ligne d’un fichier texte (ex : séparateur de colonnes)

C Créer des vues

D Activer la sérialisation Avro

Cette clause permet à Hive de comprendre comment parser les lignes:

ROW FORMAT DELIMITED FIELDS TERMINATED BY ','

6. Que permet `--incremental append` dans une importation Sqoop ?

A Écrase les données précédentes

B Met à jour les lignes modifiées

C Importe uniquement les nouvelles lignes basées sur une colonne incrémentale

D Lance un import multithread

Avec --check-column id --incremental append --last-value 100, Sqoop importe les lignes avec id > 100 uniquement. Super utile pour des imports quotidiens.

7. En Spark, que fait `.persist(StorageLevel.MEMORY_ONLY)` ?

A Sauvegarde les données dans HDFS

B Garde les données en mémoire uniquement, sans fallback sur disque

C Compresse les données sur disque

D Ne change rien au comportement de Spark

MEMORY_ONLY → rapide, mais risque de recalcul si la mémoire est insuffisante. À ne pas confondre avec MEMORY_AND_DISK.

8. Quelle propriété dans `hdfs-site.xml` configure le facteur de réplication par défaut ?

A dfs.replication.default

B hdfs.replication

C dfs.replication

D hdfs.block.replication

Exemple de configuration :

<property>
  <name>dfs.replication</name>
  <value>3</value>
</property>

→ chaque bloc HDFS est stocké sur 3 DataNodes par défaut.

9. Quelle commande Spark est une action et non une transformation ?

A map()

B filter()

C flatMap()

D count()

count() déclenche l’exécution → c’est une action Spark. Les autres (map, filter, etc.) sont des transformations paresseuses.

10. En Hive, comment créer une table temporaire utilisable uniquement dans la session active ?

A CREATE SESSION TABLE

B CREATE TEMP TABLE

C CREATE TEMPORARY TABLE

D CREATE TABLE TEMP

Les tables temporaires sont stockées en mémoire, limitées à la session actuelle :

CREATE TEMPORARY TABLE t_temp (id INT, nom STRING);

QCMs qui pourraient vous intéresser :

1. Quelle propriété configure le nom du cluster YARN dans yarn-site.xml ?

2. En Hive, LIMIT 10 s’applique :

3. Quelle directive dans Spark permet de forcer l’exécution immédiate d’un DAG paresseux ?

4. En Spark, que fait l’opérateur filter() sur un RDD ou un DataFrame ?

5. Dans Hive, le mot-clé ROW FORMAT DELIMITED est utilisé pour _________

6. Que permet --incremental append dans une importation Sqoop ?

7. En Spark, que fait .persist(StorageLevel.MEMORY_ONLY) ?

8. Quelle propriété dans hdfs-site.xml configure le facteur de réplication par défaut ?

9. Quelle commande Spark est une action et non une transformation ?

10. En Hive, comment créer une table temporaire utilisable uniquement dans la session active ?

Vous pourrez aussi aimer

QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 9

QCM sur Big Data corrigé – Principes de base – Partie 19

QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 3

Laisser un commentaire Annuler la réponse

1. Quelle propriété configure le nom du cluster YARN dans `yarn-site.xml` ?

2. En Hive, `LIMIT 10` s’applique :

4. En Spark, que fait l’opérateur `filter()` sur un RDD ou un DataFrame ?

5. Dans Hive, le mot-clé `ROW FORMAT DELIMITED` est utilisé pour _________

6. Que permet `--incremental append` dans une importation Sqoop ?

7. En Spark, que fait `.persist(StorageLevel.MEMORY_ONLY)` ?

8. Quelle propriété dans `hdfs-site.xml` configure le facteur de réplication par défaut ?