QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 24

avril 12, 2025avril 12, 2025 Thomas Aucun commentaire

Questions d’Entretien sur Big Data avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur Big Data comprennent divers sujets tel que les principes de base du Big Data, Hadoop, l’écosystème et ses composants, l’analyse, Hypervisor, etc… Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur Big Data.

1. En Hive, que signifie SERDE ?

A Service Error Data Engine

B Serializing and Deserializing

C Server Resource Definition

D Spark Execution Dependency Engine

Un SerDe définit comment Hive lit et écrit les lignes de données dans une table (CSV, JSON, Parquet…). Vous pouvez même écrire ton propre SerDe en Java.

2. En Spark, `collect()` est dangereux sur de grands datasets car :

A Il bloque l’UI Spark

B Il ne lit pas les fichiers ORC

C Il charge tout en mémoire sur le driver (risque d’OutOfMemory)

D Il force un shuffle

collect() ramène toutes les données vers le driver. Si le dataset est énorme → mémoire saturée, crash. Toujours à utiliser avec prudence, ou tester avec take(n).

3. Quelle commande permet de changer le facteur de réplication d’un fichier déjà présent dans HDFS ?

A hadoop fs -replicate

B hadoop fs -setrep

C hadoop fs -updateReplication

D hadoop fs -chmod +r

hadoop fs -setrep permet de modifier le facteur de réplication d’un fichier ou répertoire. Exemple :

hadoop fs -setrep -w 2 /chemin/fichier.txt

4. Dans Spark, que permet le paramètre `spark.sql.shuffle.partitions` ?

A Définir le nombre de partitions pour les shuffle (joins, groupBy…)

B Choisir le nombre d’exécuteurs

C Répartir les fichiers entre les workers

D Activer la compression des shuffles

Par défaut : 200 → trop pour des petits jobs. Exemple :

spark.conf.set("spark.sql.shuffle.partitions", 8)

→ moins de partitions = moins de tâches à gérer = plus rapide sur petit volume.

5. Quelle commande permet de connaître le nombre de fichiers et la taille totale d’un répertoire dans HDFS ?

A hadoop fs -du -s

B hadoop fs -count

C hadoop fs -df

D hadoop fs -summary

hadoop fs -count retourne le nombre de fichiers, de répertoires, et la taille totale d’un répertoire. Exemple: hadoop fs -count /dossier

6. Quelle commande Hadoop permet de concaténer plusieurs fichiers dans HDFS en un seul fichier HDFS (sans passer par le local) ?

A hadoop fs -getmerge

B hadoop fs -concat

C hadoop fs -mergeFiles

D hadoop fs -combine

hadoop fs -concat fonctionne uniquement dans HDFS (contrairement à getmerge). Il permet de fusionner plusieurs fichiers HDFS dans un seul fichier HDFS.

7. Quelle commande permet d’afficher les valeurs de configuration d’Hadoop ?

A hadoop show config

B hadoop conf

C hadoop classpath

D hadoop org.apache.hadoop.conf.Configuration

Cette commande Java affiche les propriétés de configuration d’Hadoop à partir des fichiers core-site.xml, hdfs-site.xml, etc. Peu connue mais utile pour déboguer.

8. Quelle commande permet de tester un fichier HDFS pour identifier les blocs corrompus ?

A hadoop fs -test -corrupt

B hdfs fsck <chemin> -files -blocks -locations

C hadoop fs -corrupt-check

D hadoop fsck -scan

hdfs fsck avec les options -files -blocks -locations fournit une analyse détaillée des blocs et permet d’identifier les éventuels blocs corrompus ou manquants.

9. Quelle commande permet de changer les permissions (chmod) en notation symbolique, comme sous Unix ?

A hadoop fs -chmod u+x

B hadoop fs -chmod 755

C hadoop fs -perm change

D hadoop fs -chmod symbolic

Depuis Hadoop 2.7+, hadoop fs -chmod accepte aussi la notation symbolique (ex: u+x, g+w, o-r), comme dans les systèmes Unix.

10. Quelle commande Hadoop permet d’obtenir le chemin absolu d’un fichier ou répertoire HDFS ?

A hadoop fs -realpath

B hadoop fs -stat %n

C hadoop fs -fullpath

D hadoop fs -pwd

hadoop fs -stat peut être utilisé avec des modèles pour afficher différentes informations. %n retourne le nom complet du fichier, %F le type, %b le nombre d’octets, etc.

QCMs qui pourraient vous intéresser :

1. En Hive, que signifie SERDE ?

2. En Spark, collect() est dangereux sur de grands datasets car :

3. Quelle commande permet de changer le facteur de réplication d’un fichier déjà présent dans HDFS ?

4. Dans Spark, que permet le paramètre spark.sql.shuffle.partitions ?

5. Quelle commande permet de connaître le nombre de fichiers et la taille totale d’un répertoire dans HDFS ?

6. Quelle commande Hadoop permet de concaténer plusieurs fichiers dans HDFS en un seul fichier HDFS (sans passer par le local) ?

7. Quelle commande permet d’afficher les valeurs de configuration d’Hadoop ?

8. Quelle commande permet de tester un fichier HDFS pour identifier les blocs corrompus ?

9. Quelle commande permet de changer les permissions (chmod) en notation symbolique, comme sous Unix ?

10. Quelle commande Hadoop permet d’obtenir le chemin absolu d’un fichier ou répertoire HDFS ?

Vous pourrez aussi aimer

QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 20

QCM sur Big Data corrigé – Principes de base – Partie 14

QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 21

Laisser un commentaire Annuler la réponse

2. En Spark, `collect()` est dangereux sur de grands datasets car :

4. Dans Spark, que permet le paramètre `spark.sql.shuffle.partitions` ?