QCM Apache Spark Corrigé – Partie 6

QCM sur le framework Apache Spark avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur le framework Apache Spark comprennent divers sujets tel que les bases du framework Apache Spark, Hadoop, MapReduce, Requêtes interactives, traitement en flux, ETL, Big Data, etc…. Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur le framework Apache Spark.
 
 

1. Laquelle des affirmations suivantes est VRAIE concernant Spark R?

A C’est le noyau de Spark

B Il permet aux utilisateurs d’exécuter des requêtes SQL/HQL sur Spark.

C Il s’agit d’une bibliothèque scalable du machine learning qui offre des performances.

D Il permet aux data scientists d’analyser de grands datasets et d’exécuter des tâches de manière interactive.

D
Spark R permet aux data scientists d’analyser de grands datasets et d’exécuter des tâches de manière interactive.

 

 

2. Laquelle des affirmations suivantes est VRAIE concernant Spark MLlib?

A C’est le noyau de Spark

B Il permet aux utilisateurs d’exécuter des requêtes SQL/HQL sur Spark.

C Il s’agit d’une bibliothèque scalable du Machine Learning qui offre des avantages en termes d’efficacité.

D Il permet aux data scientists d’analyser de grands datasets et d’exécuter des tâches de manière interactive.

C
Spark MLlib est une bibliothèque scalable du Machine Learning qui offre des avantages en termes d’efficacité.

 

 

3. Laquelle des affirmations suivantes est VRAIE concernant Spark Shell?

A Il aide les applications Spark à s’exécuter facilement sur la ligne de commande du système.

B Il exécute/teste le code de l’application de manière interactive

C Il permet de lire de nombreux types de sources de données

D Toutes les réponses sont vraies

D
Toutes les réponses sont vraies.

 

 
 

4. Laquelle des affirmations suivantes est VRAIE concernant RDD?

A Nous pouvons faire fonctionner les RDD de Spark en parallèle avec une API de bas niveau.

B Les RDDs sont similaires à une table dans une base de données relationnelle

C Il permet le traitement d’une grande quantité de données structurées

D Il possède un moteur d’optimisation intégré

A
Nous pouvons faire fonctionner les RDD de Spark en parallèle avec une API de bas niveau.

 

 

5. Les RDD sont tolérants aux pannes et immuables.

A Vrai

B Faux

C Peut-être

D Je ne sais pas!

A
Les RDD sont tolérants aux pannes et immuables.

 

 

6. Dans lequel des cas suivants devons-nous stocker les données en mémoire ?

A Algorithmes itératifs

B Outils interactifs d’exploration de données

C Les deux A et B

D Aucune de ces réponses

C
Les deux A et B.

 

 
 

7. Quand Apache Spark évalue-t-il les RDD ?

A Lors d’une action

B Lors d’une transformation

C Les deux A et B

D Aucune de ces réponses

A
Apache Spark évalue les RDD lors d’une action.

 

 

8. Est-il possible d’atténuer les retards dans les RDD ?

A Oui

B Non

C Peut-être

D Je ne sais pas!

A
  • RDD: Il est possible d’atténuer les retards en utilisant une tâche de secours dans les RDD.
  • DSM: L’atténuation des retards est assez difficile à réaliser.
  • RDD: Comme il n’y a pas assez d’espace pour stocker les RDD dans la RAM, les RDD sont déplacés sur le disque.
  • DSM: Si la RAM manque d’espace de stockage, les performances diminuent dans ce type de systèmes.

 

 
 

9. La tolérance aux pannes dans les RDD est obtenue grâce aux éléments suivants:

A La nature immuable du RDD

B DAG (Directed Acyclic Graph)

C Évaluation paresseuse (Lazy-evaluation)

D Aucune de ces réponses

B
Comme nous le savons, le DAG conserve l’enregistrement des opérations appliquées sur le RDD. Il contient tous les détails des tâches exécutées sur les différentes partitions du RDD. Ainsi, en cas de panne ou de perte d’un RDD, nous pouvons le retrouver facilement à l’aide du graphe DAG.

Par exemple, si une opération est en cours et que tout à coup un RDD tombe en panne. Avec l’aide du gestionnaire de cluster, nous allons identifier la partition dans laquelle la perte se produit. Après cela, grâce au DAG, nous affecterons le RDD au même moment pour récupérer la perte de données.

Ce nouveau nœud fonctionnera sur la partition particulière de Spark RDD. Il s’exécutera également dans la série d’opérations, là où il devait être exécuté.

 

 

10. Qu’est-ce qu’une transformation dans Spark RDD ?

A Prend un RDD en entrée et produit un ou plusieurs RDD en sortie.

B Renvoie le résultat final des calculs RDD.

C Les moyens d’envoyer le résultat des exécuteurs au pilote.

D Aucune de ces réponses

A
Une transformation dans Spark RDD signifie prend un RDD en entrée et produit un ou plusieurs RDD en sortie.

 

 

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *