QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 16

avril 11, 2025juin 26, 2026 Thomas Aucun commentaire

Questions d’Entretien sur Big Data avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur Big Data comprennent divers sujets tel que les principes de base du Big Data, Hadoop, l’écosystème et ses composants, l’analyse, Hypervisor, etc… Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur Big Data.

1. Quelle commande permet de copier un fichier HDFS vers un autre emplacement HDFS ?

A hadoop fs -copyToLocal

B hadoop fs -cp

C hadoop fs -put

D hadoop fs -getmerge

La commande -cp permet de copier des fichiers ou dossiers directement au sein d’HDFS, sans toucher au système de fichiers local.

2. Quelle commande Hive permet de supprimer une table sans supprimer les fichiers sous-jacents dans HDFS ?

A DROP TABLE

B TRUNCATE TABLE

C DROP EXTERNAL TABLE

D DELETE TABLE

Si la table est EXTERNAL, Hive supprime seulement le métadonnée de la table, mais pas les fichiers réels dans HDFS. Parfait pour garder des fichiers réutilisables.

3. Quelle API Java permet de soumettre un job MapReduce dans Hadoop ?

A JobConf

B MapReduceRunner

C HadoopSubmit

D Job

La classe Job (dans org.apache.hadoop.mapreduce.Job) est l’API moderne pour configurer et soumettre un job MapReduce à Hadoop.

4. Quelle commande permet de copier un fichier de manière interactive, en demandant une confirmation si le fichier existe déjà ?

A hadoop fs -put -i

B hadoop fs -copyFromLocal -f

C hadoop fs -get -skip

D Il n’existe pas de mode interactif natif dans Hadoop

Hadoop n’a pas de mode interactif avec confirmation comme certaines commandes Unix. Si un fichier existe, -put retournera une erreur, et -f forcera l’écrasement, mais aucune confirmation n’est demandée par défaut.

5. Que fait le fichier `hive-site.xml` dans Hive ?

A Il stocke les requêtes Hive exécutées récemment

B Il contient la configuration du moteur de base de données MySQL

C Il configure Hive (métastore, moteur, répertoire warehouse, etc.)

D Il configure la réplication dans HDFS

hive-site.xml contient toutes les propriétés de configuration pour Hive, comme:

L’URL du métastore
Le moteur (Tez, MR, Spark)
L’emplacement du warehouse dans HDFS
La gestion de la sécurité

6. Quelle commande permet de rechercher des fichiers par nom dans le HDFS ?

A hadoop fs -find

B hadoop fs -grep

C hadoop fs -locate

D hadoop fs -search

La commande hadoop fs -find fonctionne de manière similaire à la commande Unix find. Elle permet de rechercher des fichiers selon des critères comme le nom, la date, ou les permissions.

7. Quelle classe Java permet de définir la logique de tri personnalisée dans un job MapReduce ?

A Partitioner

B GroupingComparator

C KeyComparator

D WritableComparator

Pour personnaliser le tri des clés avant le Reduce, on implémente une classe héritée de WritableComparator. Cela permet de changer l’ordre par défaut (alphabétique, numérique, etc.).

8. Quelle est la fonction principale du ApplicationMaster dans YARN ?

A Démarrer le NameNode

B Superviser un job spécifique et demander les containers au ResourceManager

C Distribuer les blocs HDFS

D Stocker les résultats des jobs

Chaque job YARN possède un ApplicationMaster dédié qui gère son exécution: il demande des ressources, lance les tâches, et suit leur état.

9. Quel est le rôle de Combiner vs Reducer en MapReduce ?

A Le Combiner est exécuté côté Reducer

B Le Combiner agrège les résultats globaux

C Le Combiner est une optimisation locale côté Mapper

D Les deux sont identiques

Le Combiner agit juste après le Mapper, sur chaque nœud, pour réduire la quantité de données envoyée au Reducer. Il ne garantit pas l’exactitude globale du résultat.

10. Dans Hive, que signifie le mode strict (`hive.mapred.mode=strict`) ?

A Hive ne permet aucune requête si des erreurs sont présentes

B Hive n’autorise pas certaines requêtes non optimisées (ex: SELECT * sans WHERE)

C Hive interdit les jointures

D Hive ne peut plus exécuter de requêtes en mode batch

En mode strict, Hive empêche les pratiques risquées :

Requêtes sans clause WHERE sur de grandes tables
Création de tables sans partition
INSERT OVERWRITE sans PARTITION

QCMs qui pourraient vous intéresser :

1. Quelle commande permet de copier un fichier HDFS vers un autre emplacement HDFS ?

2. Quelle commande Hive permet de supprimer une table sans supprimer les fichiers sous-jacents dans HDFS ?

3. Quelle API Java permet de soumettre un job MapReduce dans Hadoop ?

4. Quelle commande permet de copier un fichier de manière interactive, en demandant une confirmation si le fichier existe déjà ?

5. Que fait le fichier hive-site.xml dans Hive ?

6. Quelle commande permet de rechercher des fichiers par nom dans le HDFS ?

7. Quelle classe Java permet de définir la logique de tri personnalisée dans un job MapReduce ?

8. Quelle est la fonction principale du ApplicationMaster dans YARN ?

9. Quel est le rôle de Combiner vs Reducer en MapReduce ?

10. Dans Hive, que signifie le mode strict (hive.mapred.mode=strict) ?

Vous pourrez aussi aimer

QCM sur Big Data corrigé – Principes de base – Partie 20

QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 24

QCM sur Big Data corrigé – Principes de base – Partie 8

Laisser un commentaire Annuler la réponse

5. Que fait le fichier `hive-site.xml` dans Hive ?

10. Dans Hive, que signifie le mode strict (`hive.mapred.mode=strict`) ?