QCM Apache Spark Corrigé – Partie 1

QCM sur le framework Apache Spark avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur le framework Apache Spark comprennent divers sujets tel que les bases du framework Apache Spark, Hadoop, MapReduce, Requêtes interactives, traitement en flux, ETL, Big Data, etc…. Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur le framework Apache Spark.
 
 

1. Spark est développé dans quel langage?

A R

B Python

C Scala

D Java

C
Apache Spark est écrit en Scala. Par conséquent, la plupart des data engineers qui adoptent Spark adoptent également Scala, tandis que Python et R restent populaires auprès des data scientists. Heureusement, il n’est pas nécessaire de maîtriser Scala pour utiliser Spark efficacement.

 

 

2. Dans Spark Streaming, les données peuvent provenir de quelles sources?

A Flume

B Kafka

C Kinesis

D Toutes les réponses sont vraies

D
Toutes les réponses sont vraies.

  • Flume est un service distribué, fiable et disponible pour collecter, agréger et déplacer efficacement de grandes quantités de données de logs.
  • Amazon Kinesis pour collecter et traiter de grands flux de données en temps réel.
  • Kafka est utilisé pour construire des pipelines de données en streaming en temps réel et des applications de streaming en temps réel.

 

 

3. Apache Spark dispose d’API en ___________

A Python

B Scala

C Java

D Toutes les réponses sont vraies

D
Apache Spark est un moteur d’analyse pour le traitement de données à grande échelle. Il fournit des API de haut niveau en Java, Scala, Python et R.

 

 
 

4. Lequel des éléments suivants n’est pas un composant de l’écosystème Spark ?

A Sqoop

B MLlib

C GraphX

D BlinkDB

A
Il s’agit d’un outil conçu pour transférer efficacement des données en masse entre Apache Hadoop et des bases de données structurées telles que les bases de données relationnelles. Apache Spark peut être classé comme un outil de Big Data, tandis que Sqoop peut être classé comme un outil de base de données.

 

 

5. Lequel des langages suivants n’est pas pris en charge par Spark ?

A Java

B Pascal

C Python

D Scala

B
Pascal n’est pas pris en charge par Spark.

 

 

6. Les utilisateurs peuvent facilement exécuter Spark sur le serveur ________ d’Amazon.

A EMR

B Infosphere

C Nginx

D EC2

D
Les utilisateurs peuvent facilement exécuter Spark (et Shark) sur une instance EC2 d’Amazon, en utilisant les scripts fournis avec Spark.

 

 
 

7. Indiquez l’affirmation correcte.

A Spark permet aux utilisateurs d’Apache Hive d’exécuter leurs requêtes non modifiées beaucoup plus rapidement.

B Spark n’interagit qu’avec Hadoop

C Spark est une solution populaire de stockage de données fonctionnant grâce à Hadoop.

D Aucune de ces réponses

A
Shark peut accélérer les requêtes Hive jusqu’à 100 fois lorsque les données d’entrée tiennent dans la mémoire, et jusqu’à 10 fois lorsque les données d’entrée sont stockées sur le disque.

 

 

8. Spark fonctionne sur ___________, un système de gestion de clusters qui assure une isolation efficace des ressources pour les applications distribuées.

A Mesjs

B Mesos

C Mesus

D Toutes les réponses sont vraies

B
Mesos permet un partage très fin qui permet à un job Spark de profiter dynamiquement des ressources inutilisées du cluster pendant son exécution.

 

 

9. Lequel des éléments suivants peut être utilisé pour lancer des jobs Spark à l’intérieur de MapReduce ?

A SIM

B SIR

C SIMR

D RIS

C
Avec SIMR, les utilisateurs peuvent commencer à tester Spark et à utiliser son shell quelques minutes seulement après l’avoir téléchargé.

 

 
 

10. Indiquez l’affirmation incorrecte.

A Spark est destiné à remplacer, la pile Hadoop

B Spark a été conçu pour lire et écrire des données depuis et vers HDFS, ainsi que d’autres systèmes de stockage.

C Les utilisateurs d’Hadoop qui ont déjà déployé ou qui prévoient de déployer Hadoop Yarn peuvent simplement exécuter Spark sur YARN.

D Aucune de ces réponses

A
Spark est destiné à améliorer, et non à remplacer, la pile Hadoop.

 

 

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *