QCM Apache Spark Corrigé – Partie 9

QCM sur le framework Apache Spark avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur le framework Apache Spark comprennent divers sujets tel que les bases du framework Apache Spark, Hadoop, MapReduce, Requêtes interactives, traitement en flux, ETL, Big Data, etc…. Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur le framework Apache Spark.
 
 

1. Spark SQL joue un rôle important dans l’optimisation des requêtes.

A Vrai

B Faux

C Peut-être

D Je ne sais pas!

A
Vrai, Spark SQL joue un rôle important dans l’optimisation des requêtes.

 

 

2. L’optimiseur est basé sur la programmation fonctionnelle en ______.

A R

B Python

C Scala

D Java

C
L’optimiseur est basé sur la programmation fonctionnelle en Scala.

 

 

3. Catalyst Optimizer prend en charge l’optimisation basée sur les règles et sur les coûts.

A Vrai

B Faux

C Peut-être

D Je ne sais pas!

B

 

 
 

4. Lequel des éléments suivants n’est pas une phase d’exécution d’une requête SQL Spark ?

A Analyse

B Optimisation logique

C Planification physique

D Exécution

D
Les quatre phases d’une transformation que Catalyst réalise sont les suivantes :

Analyse: La première phase de l’optimisation de Spark SQL est l’analyse. Spark SQL commence avec une relation à traiter qui peut être de deux façons. Une forme sérieuse à partir d’un AST (abstract syntax tree) retourné par un parser SQL, et d’autre part à partir d’un objet DataFrame de l’API Spark SQL.

Optimisation logique: La deuxième phase est le plan d’optimisation logique. Dans cette phase, l’optimisation basée sur des règles est appliquée au plan logique. Il est possible d’ajouter facilement de nouvelles règles.

Plan physique: Dans la phase de plan physique, Spark SQL prend le plan logique et génère un ou plusieurs plans physiques en utilisant les opérateurs physiques qui correspondent au moteur d’exécution Spark. Le plan à exécuter est sélectionné à l’aide du modèle basé sur les coûts (comparaison entre les coûts des modèles).

Génération du code: La génération de code est la phase finale de l’optimisation de Spark SQL. Pour s’exécuter sur chaque machine, il est nécessaire de générer le bytecode du code Java.

 

 

5. Lequel des énoncés suivants n’est pas vrai pour Catalyst Optimizer ?

A Catalyst Optimizer utilise une fonction de correspondance des formes.

B Catalyst contient une arbre et l’ensemble des règles pour manipuler l’arbre.

C Il n’y a pas de bibliothèques spécifiques pour traiter les requêtes relationnelles.

D Il existe différents ensembles de règles qui traitent différentes phases de la requête.

C

 

 

6. Dans la phase de planification physique de l’optimisation des requêtes, nous pouvons utiliser l’optimisation basée sur les coûts et l’optimisation basée sur les règles.

A Vrai

B Faux

C Peut-être

D Je ne sais pas!

A
Dans la phase de planification physique de l’optimisation des requêtes, nous pouvons utiliser l’optimisation basée sur les coûts et l’optimisation basée sur les règles.

 

 
 

7. Lequel des énoncés suivants n’est pas vrai pour DataFrame ?

A DataFrame dans Apache Spark est derrière RDD

B Nous pouvons construire un DataFrame à partir de différentes sources de données : fichier de données structuré, tables dans Hive, etc…

C L’interface de programmation d’application (API) de DataFrame est disponible dans plusieurs langages.

D Que ce soit en Scala ou en Java, nous représentons le DataFrame comme un ensemble de lignes de données.

A

 

 

8. Nous pouvons créer des DataFrame en utilisant __________

A Tables dans Hive

B Des fichiers de données structurés

C Des bases de données externes

D Toutes les réponses sont vraies

D

 

 
 

9. Laquelle des structures suivantes est la structure de données fondamentale de Spark ?

A DataFrame

B Dataset

C RDD

D Aucune de ces réponses

C

 

 

10. Lequel des éléments suivants organise les données dans une colonne nommée ?

A DataFrame

B Dataset

C RDD

D Aucune de ces réponses

A, B

 

 

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *