QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 23

avril 12, 2025avril 12, 2025 Thomas Aucun commentaire

Questions d’Entretien sur Big Data avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur Big Data comprennent divers sujets tel que les principes de base du Big Data, Hadoop, l’écosystème et ses composants, l’analyse, Hypervisor, etc… Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur Big Data.

1. En Spark, que fait la méthode `.cache()` ?

A Stocke les données sur disque

B Supprime les partitions inutilisées

C Stocke les données en mémoire pour réutilisation

D Fait un snapshot du DataFrame

.cache() = alias de .persist(StorageLevel.MEMORY_AND_DISK) → très utile quand tu veux réutiliser un RDD ou un DataFrame plusieurs fois sans le recalculer.

2. Dans Hive, comment éviter qu’un `INSERT OVERWRITE` ne supprime toute une partition non ciblée ?

A Utiliser INSERT INTO

B Utiliser des vues

C Utiliser MSCK REPAIR avant

D Activer le mode strict

INSERT OVERWRITE écrase complètement les partitions ciblées. Si tu veux ajouter sans effacer, utilise INSERT INTO.

3. Quel est l’ordre logique d’exécution d’une requête Hive SQL ?

A FROM → SELECT → WHERE → GROUP BY → HAVING → ORDER BY

B SELECT → FROM → WHERE → ORDER BY → HAVING

C FROM → WHERE → GROUP BY → HAVING → SELECT → ORDER BY

D WHERE → FROM → SELECT → GROUP BY → HAVING → ORDER BY

L’ordre logique, différent de l’ordre d’écriture, est : FROM → WHERE → GROUP BY → HAVING → SELECT → ORDER BY

4. Quelle commande permet de tester la connectivité entre le client et le NameNode ?

A hadoop fs -ping

B hdfs fsck /

C hadoop dfsadmin -test

D hadoop fs -connect

La commande hadoop fs -ping permet de tester la connectivité réseau entre le client et le serveur NameNode dans HDFS. Si tout fonctionne correctement, elle renvoie une confirmation de la connexion.

5. En Hive, `MSCK REPAIR TABLE` sert à _________

A Réinitialiser une table temporaire

B Mettre à jour les partitions physiques non enregistrées dans le metastore

C Corriger une erreur de syntaxe

D Compacter les données de la table

Quand tu ajoutes des dossiers manuellement sur HDFS (ex : /table/annee=2025/mois=04) → Hive ne les voit pas sauf si tu lances : MSCK REPAIR TABLE nom_table;

6. En Hadoop, quel outil permet de surveiller le cluster HDFS (santé, datanodes, espace) via une UI ?

A Yarn UI

B Namenode UI

C JobTracker

D Oozie

Accessible via http://namenode:50070 (ou 9870 selon version), cette interface te donne :

Etat du cluster
Liste des DataNodes
Utilisation HDFS
Fichiers, blocs, etc.

7. En Hive, le fichier `hive-site.xml` permet de :

A Déclarer les fonctions SQL

B Configurer les paramètres de Hive (Metastore, exec engine, etc.)

C Écrire des scripts SQL

D Configurer YARN

C’est le fichier principal de config Hive, dans $HIVE_HOME/conf :

Connexion JDBC au metastore
Moteur (Tez, MR, Spark)
Mode strict, etc.

8. En Spark, `broadcast()` permet de :

A Partager une grosse table entre plusieurs applications

B Envoyer une petite table à tous les workers pour un join efficace

C Cloner un DataFrame

D Démarrer plusieurs jobs simultanément

Quand tu joins une grosse table avec une petite table → tu peux faire :

val smallBC = spark.sparkContext.broadcast(smallTable)

9. En Hive, que fait la clause `SORT BY` ?

A Trie globalement tous les résultats

B Trie uniquement les colonnes numériques

C Trie après GROUP BY

D Trie localement dans chaque reducer

SORT BY trie localement dans chaque tâche → plus rapide mais pas de tri global garanti (contrairement à ORDER BY, qui trie globalement et nécessite un seul reducer).

10. Quelle commande Hadoop permet de définir le facteur de réplication lors du téléchargement d’un fichier dans HDFS ?

A hadoop fs -put -replication

B hadoop fs -Ddfs.replication=3 -put

C hadoop fs -setrep

D hadoop fs -copyFromLocal -r

On peut définir temporairement le facteur de réplication d’un fichier lors de sa mise en HDFS avec l’option -Ddfs.replication=<valeur>. Par exemple:

hadoop fs -Ddfs.replication=2 -put mon_fichier.txt /chemin/hdfs/

QCMs qui pourraient vous intéresser :

1. En Spark, que fait la méthode .cache() ?

2. Dans Hive, comment éviter qu’un INSERT OVERWRITE ne supprime toute une partition non ciblée ?

3. Quel est l’ordre logique d’exécution d’une requête Hive SQL ?

4. Quelle commande permet de tester la connectivité entre le client et le NameNode ?

5. En Hive, MSCK REPAIR TABLE sert à _________

6. En Hadoop, quel outil permet de surveiller le cluster HDFS (santé, datanodes, espace) via une UI ?

7. En Hive, le fichier hive-site.xml permet de :

8. En Spark, broadcast() permet de :

9. En Hive, que fait la clause SORT BY ?

10. Quelle commande Hadoop permet de définir le facteur de réplication lors du téléchargement d’un fichier dans HDFS ?

Vous pourrez aussi aimer

QCM sur Big Data corrigé – Principes de base – Partie 11

QCM sur Big Data corrigé – Principes de base – Partie 21