QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 24

Questions d’Entretien sur Big Data avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur Big Data comprennent divers sujets tel que les principes de base du Big Data, Hadoop, l’écosystème et ses composants, l’analyse, Hypervisor, etc… Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur Big Data.
 
 

1. En Hive, que signifie SERDE ?

A Service Error Data Engine

B Serializing and Deserializing

C Server Resource Definition

D Spark Execution Dependency Engine

B
Un SerDe définit comment Hive lit et écrit les lignes de données dans une table (CSV, JSON, Parquet…). Vous pouvez même écrire ton propre SerDe en Java.

 

 

2. En Spark, collect() est dangereux sur de grands datasets car :

A Il bloque l’UI Spark

B Il ne lit pas les fichiers ORC

C Il charge tout en mémoire sur le driver (risque d’OutOfMemory)

D Il force un shuffle

C
collect() ramène toutes les données vers le driver. Si le dataset est énorme → mémoire saturée, crash. Toujours à utiliser avec prudence, ou tester avec take(n).

 

 

3. Quelle commande permet de changer le facteur de réplication d’un fichier déjà présent dans HDFS ?

A hadoop fs -replicate

B hadoop fs -setrep

C hadoop fs -updateReplication

D hadoop fs -chmod +r

B
hadoop fs -setrep permet de modifier le facteur de réplication d’un fichier ou répertoire. Exemple :

hadoop fs -setrep -w 2 /chemin/fichier.txt

 

 
 

4. Dans Spark, que permet le paramètre spark.sql.shuffle.partitions ?

A Définir le nombre de partitions pour les shuffle (joins, groupBy…)

B Choisir le nombre d’exécuteurs

C Répartir les fichiers entre les workers

D Activer la compression des shuffles

A
Par défaut : 200 → trop pour des petits jobs. Exemple :

spark.conf.set("spark.sql.shuffle.partitions", 8)

→ moins de partitions = moins de tâches à gérer = plus rapide sur petit volume.

 

 

5. Quelle commande permet de connaître le nombre de fichiers et la taille totale d’un répertoire dans HDFS ?

A hadoop fs -du -s

B hadoop fs -count

C hadoop fs -df

D hadoop fs -summary

B
hadoop fs -count retourne le nombre de fichiers, de répertoires, et la taille totale d’un répertoire. Exemple: hadoop fs -count /dossier

 

 

6. Quelle commande Hadoop permet de concaténer plusieurs fichiers dans HDFS en un seul fichier HDFS (sans passer par le local) ?

A hadoop fs -getmerge

B hadoop fs -concat

C hadoop fs -mergeFiles

D hadoop fs -combine

B
hadoop fs -concat fonctionne uniquement dans HDFS (contrairement à getmerge). Il permet de fusionner plusieurs fichiers HDFS dans un seul fichier HDFS.

 

 
 

7. Quelle commande permet d’afficher les valeurs de configuration d’Hadoop ?

A hadoop show config

B hadoop conf

C hadoop classpath

D hadoop org.apache.hadoop.conf.Configuration

D
Cette commande Java affiche les propriétés de configuration d’Hadoop à partir des fichiers core-site.xml, hdfs-site.xml, etc. Peu connue mais utile pour déboguer.

 

 

8. Quelle commande permet de tester un fichier HDFS pour identifier les blocs corrompus ?

A hadoop fs -test -corrupt

B hdfs fsck <chemin> -files -blocks -locations

C hadoop fs -corrupt-check

D hadoop fsck -scan

B
hdfs fsck avec les options -files -blocks -locations fournit une analyse détaillée des blocs et permet d’identifier les éventuels blocs corrompus ou manquants.

 

 

9. Quelle commande permet de changer les permissions (chmod) en notation symbolique, comme sous Unix ?

A hadoop fs -chmod u+x

B hadoop fs -chmod 755

C hadoop fs -perm change

D hadoop fs -chmod symbolic

A
Depuis Hadoop 2.7+, hadoop fs -chmod accepte aussi la notation symbolique (ex: u+x, g+w, o-r), comme dans les systèmes Unix.

 

 
 

10. Quelle commande Hadoop permet d’obtenir le chemin absolu d’un fichier ou répertoire HDFS ?

A hadoop fs -realpath

B hadoop fs -stat %n

C hadoop fs -fullpath

D hadoop fs -pwd

B
hadoop fs -stat peut être utilisé avec des modèles pour afficher différentes informations. %n retourne le nom complet du fichier, %F le type, %b le nombre d’octets, etc.

 

 

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *