QCM Apache Spark Corrigé – Partie 2

QCM sur le framework Apache Spark avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur le framework Apache Spark comprennent divers sujets tel que les bases du framework Apache Spark, Hadoop, MapReduce, Requêtes interactives, traitement en flux, ETL, Big Data, etc…. Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur le framework Apache Spark.
 
 

1. Spark est fourni avec des bibliothèques de niveau plus avancé, y compris la prise en charge des requêtes _________.

A C

B C++

C SQL

D Java

C
Les bibliothèques standard augmentent la productivité des développeurs et peuvent être combinées de manière transparente pour créer des flux de travail complexes.

 

 

2. Spark comprend une collection de plus de ________ opérateurs pour transformer les données et des API familières de blocs de données pour manipuler les données semi-structurées.

A 70

B 80

C 90

D 100

B
Spark fournit des API faciles à utiliser pour opérer sur de grands ensembles de données.

 

 

3. L’abstraction de base de Spark Streaming est ________.

A Dstream

B RDD

C Variable partagée

D Aucun des éléments ci-dessus

A
Un Discretized Stream (DStream), l’abstraction de base dans Spark Streaming, est une séquence continue de RDDs (du même type) représentant un flux continu de données. Les DStreams peuvent être créés à partir de données en direct (telles que des données provenant de sockets TCP, Kafka, Flume, etc.) à l’aide d’un StreamingContext ou peuvent être générés en transformant des DStreams existants à l’aide d’opérations telles que map, window et reduceByKeyAndWindow. Pendant l’exécution d’un programme Spark Streaming, chaque DStream génère périodiquement un RDD, soit à partir de données en direct, soit en transformant le RDD généré par un DStream parent.

 

 
 

4. Dstream en interne est ________.

A Flux continu de RDD

B Flux continu de DataFrame

C Flux continu de DataSet

D Aucune de ces réponses

A
Dstream en interne est une séquence continue de RDDs (du même type) représentant un flux continu de données.

 

 

5. Peut-on ajouter ou configurer un nouveau traitement de chaîne après le démarrage de SparkContext ?

A Oui

B Non

B
Non, on peut ajouter ou configurer un nouveau traitement de chaîne après le démarrage de SparkContext.

 

 

6. Lequel des éléments suivants n’est pas une caractéristique de Spark ?

A Prise en charge du calcul en mémoire

B Tolérance aux pannes

C Il est rentable

D Compatible avec d’autres systèmes de stockage de fichiers

C
La principale caractéristique de Spark est son calcul en cluster en mémoire qui augmente la vitesse de traitement d’une application. Spark est conçu pour couvrir un large éventail de charges de travail telles que les applications par lots, les algorithmes itératifs, les requêtes interactives et le streaming.

 

 
 

7. Laquelle est l’abstraction d’Apache Spark ?

A Variable partagée

B RDD

C Les deux A et B

D Aucune de ces réponses

C
Apache Spark dispose de deux types d’abstractions. La principale abstraction fournie par Spark est Resilient Distributed Dataset (RDD) et la deuxième est Shared Variables (Variables partagées) : Les variables partagées sont les variables qui doivent être utilisées par de nombreuses fonctions et méthodes en parallèle.

 

 

8. Quels sont les paramètres définis pour spécifier le fonctionnement d’une fenêtre?

A Longueur de la fenêtre, intervalle de glissement

B Taille de l’état, longueur de la fenêtre

C Taille de l’état, intervalle de glissement

D Aucun des paramètres ci-dessus

A
Les paramètres définis pour spécifier le fonctionnement d’une fenêtre sont: longueur de la fenêtre et l’intervalle de glissement.

 

 

9. Lequel des éléments suivants n’est pas une opération de sortie sur DStream ?

A SaveAsTextFiles

B ForeachRDD

C SaveAsHadoopFiles

D ReduceByKeyAndWindow

D
ReduceByKeyAndWindow n’est pas une opération de sortie sur DStream.

 

 
 

10. Dataset a été introduit dans quelle version de Spark ?

A Spark 1.6

B Spark 1.4.0

C Spark 2.1.0

D Spark 1.1

A
Dataset a été introduit dans la version Spark 1.6.

 

 

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *