QCM Apache Spark Corrigé – Partie 3

juin 26, 2022juin 26, 2022 Thomas Aucun commentaire embauche, examen Apache Spark corrige pdf, exemple test, exercice Apache Spark avec correction, exercices corrigés, QCM, qcm Apache Spark, qcm Apache Spark corrige pdf, Question entretien, question entretien Apache Spark, quiz, quiz Apache Spark, test recrutement, Test technique

QCM sur le framework Apache Spark avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur le framework Apache Spark comprennent divers sujets tel que les bases du framework Apache Spark, Hadoop, MapReduce, Requêtes interactives, traitement en flux, ETL, Big Data, etc…. Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur le framework Apache Spark.

1. Quel gestionnaire de clusters Spark prend-il en charge ?

A MESOS

B YARN

C Gestionnaire de cluster autonome

D Toutes les réponses sont vraies

Apache Spark prend en charge ces trois types de gestionnaire de cluster.

Hadoop Yarn
Apache Mesos
Gestionnaire de cluster autonome

Le gestionnaire de cluster est une plateforme (mode cluster) où nous pouvons exécuter Spark. En termes simples, le gestionnaire de cluster fournit des ressources à tous les nœuds de traitement en fonction des besoins, et il fait fonctionner tous les nœuds en conséquence.

2. Le niveau de stockage par défaut de la méthode cache() est ___________

A MEMORY_ONLY

B MEMORY_AND_DISK

C DISK_ONLY

D MEMORY_ONLY_SER

Tous les différents niveaux de stockage pris en charge par Spark sont disponibles dans la classe « org.apache.spark.storage.StorageLevel ». Le niveau de stockage spécifie comment et où persister ou mettre en cache un DataFrame et un Dataset Spark.

MEMORY_ONLY: Il s’agit du comportement par défaut de la méthode RDD cache() qui stocke le RDD ou le DataFrame sous forme d’objets désérialisés dans la mémoire de la JVM. Si la mémoire disponible est insuffisante, les DataFrame de certaines partitions ne seront pas sauvegardés et seront recalculés en cas de besoin.

3. Lequel n’est pas un composant au sommet de Spark Core ?

A Spark RDD

B Spark Streaming

C MLlib

D Aucun des composants ci-dessus

Spark SQL est un composant au sommet de Spark Core qui introduit un nouvel ensemble d’abstraction de données appelé SchemaRDD. SchemaRDD prend en charge les données structurées et semi-structurées.

4. En quelle année Apache Spark a-t-il été rendu open-source ?

A 2009

B 2008

C 2010

D 2011

Apache Spark a été rendu open-source en 2010.

5. En plus des tâches de traitement de flux, quelles sont les autres fonctionnalités offertes par Spark ?

A Machine learning

B Traitement graphique

C Traitement par lots

D Toutes les réponses sont vraies

Toutes les réponses sont vraies.

6. Spark est-il inclus dans toutes les principales distributions de Hadoop ?

A Oui

B Non

C Peut-être

D Je ne sais pas!

Oui, Spark est inclus dans toutes les principales distributions de Hadoop.

7. Laquelle des affirmations suivantes n’est pas VRAIE pour Hadoop et Spark ?

A Les deux sont des plateformes de traitement de données

B Les deux sont des environnements de calcul en grappe

C Les deux ont leur propre système de fichiers

D Les deux utilisent des API open source pour relier différents outils.

HDFS est l’une des principales options de stockage de données pour Spark, qui ne dispose pas de son propre système de fichiers.

8. À quelle vitesse Apache Spark peut-il potentiellement exécuter des programmes de traitement par lots lorsqu’ils sont traités en mémoire, par rapport à MapReduce ?

A 10 fois plus rapide

B 20 fois plus rapide

C 100 fois plus rapide

D 200 fois plus rapide

100 fois plus rapide.

9. Lesquels des éléments suivants fournissent la capacité d’ordonnancement rapide du Spark Core pour effectuer des analyses en continu ?

A RDD

B GraphX

C Spark Streaming

D Spark R

Spark Streaming fournissent la capacité d’ordonnancement rapide du Spark Core pour effectuer des analyses en continu.

10. Laquelle des raisons suivantes explique que Spark soit plus rapide que MapReduce ?

A Moteur d’exécution DAG et calcul en mémoire

B Prise en charge de différentes API de langage comme Scala, Java, Python et R.

C Les RDD sont immuables et tolérants aux pannes.

D Aucune de ces réponses

Le moteur d’exécution DAG et calcul en mémoire explique que Spark soit plus rapide que MapReduce.

QCMs qui pourraient vous intéresser :

1. Quel gestionnaire de clusters Spark prend-il en charge ?

2. Le niveau de stockage par défaut de la méthode cache() est ___________

3. Lequel n’est pas un composant au sommet de Spark Core ?

4. En quelle année Apache Spark a-t-il été rendu open-source ?

5. En plus des tâches de traitement de flux, quelles sont les autres fonctionnalités offertes par Spark ?

6. Spark est-il inclus dans toutes les principales distributions de Hadoop ?

7. Laquelle des affirmations suivantes n’est pas VRAIE pour Hadoop et Spark ?

8. À quelle vitesse Apache Spark peut-il potentiellement exécuter des programmes de traitement par lots lorsqu’ils sont traités en mémoire, par rapport à MapReduce ?

9. Lesquels des éléments suivants fournissent la capacité d’ordonnancement rapide du Spark Core pour effectuer des analyses en continu ?

10. Laquelle des raisons suivantes explique que Spark soit plus rapide que MapReduce ?

Vous pourrez aussi aimer

QCM Apache Spark Corrigé – Partie 5

QCM Apache Spark Corrigé – Partie 2

QCM Apache Spark Corrigé – Partie 1

Laisser un commentaire Annuler la réponse