Questions d’Entretien sur Big Data avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur Big Data comprennent divers sujets tel que les principes de base du Big Data, Hadoop, l’écosystème et ses composants, l’analyse, Hypervisor, etc… Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur Big Data.
1. Quelle propriété configure le nom du cluster YARN dans yarn-site.xml ?
A yarn.cluster.name
B yarn.resourcemanager.cluster-id
C yarn.namenode.cluster
D yarn.resource.name
B
Utilisé notamment en haute dispo pour distinguer plusieurs clusters :
La clause LIMIT est la dernière à s’appliquer. Donc elle ne garantit pas de performance à elle seule si elle est utilisée sans tri ou filtre.
3. Quelle directive dans Spark permet de forcer l’exécution immédiate d’un DAG paresseux ?
Aload()
Bcollect()
CprintSchema()
Dpersist()
B
Spark est paresseux (lazy) : rien ne s’exécute tant qu’une action comme collect(), count(), show() n’est appelée. collect() déclenche l’exécution complète du DAG.
4. En Spark, que fait l’opérateur filter() sur un RDD ou un DataFrame ?
A Regroupe les données
B Trie les données
C Compresse les données
D Applique un filtre booléen et ne garde que les lignes qui passent
D
filter() est une transformation qui applique une fonction de prédicat pour sélectionner uniquement les éléments désirés: rdd.filter(x => x > 10)
5. Dans Hive, le mot-clé ROW FORMAT DELIMITED est utilisé pour _________
A Créer une table compressée
B Définir le format de ligne d’un fichier texte (ex : séparateur de colonnes)
C Créer des vues
D Activer la sérialisation Avro
B
Cette clause permet à Hive de comprendre comment parser les lignes:
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
6. Que permet --incremental append dans une importation Sqoop ?
A Écrase les données précédentes
B Met à jour les lignes modifiées
C Importe uniquement les nouvelles lignes basées sur une colonne incrémentale
D Lance un import multithread
C
Avec --check-column id --incremental append --last-value 100, Sqoop importe les lignes avec id > 100 uniquement. Super utile pour des imports quotidiens.
7. En Spark, que fait .persist(StorageLevel.MEMORY_ONLY) ?
A Sauvegarde les données dans HDFS
B Garde les données en mémoire uniquement, sans fallback sur disque
C Compresse les données sur disque
D Ne change rien au comportement de Spark
B
MEMORY_ONLY → rapide, mais risque de recalcul si la mémoire est insuffisante. À ne pas confondre avec MEMORY_AND_DISK.
8. Quelle propriété dans hdfs-site.xml configure le facteur de réplication par défaut ?