QCM Apache Spark Corrigé – Partie 5

QCM sur le framework Apache Spark avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur le framework Apache Spark comprennent divers sujets tel que les bases du framework Apache Spark, Hadoop, MapReduce, Requêtes interactives, traitement en flux, ETL, Big Data, etc…. Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur le framework Apache Spark.
 
 

1. Est-ce que Spark R utilise MLlib ?

A Oui

B Non

C Peut-être

D Je ne sais pas!

A
MLlib est une bibliothèque de Machine Learning (ML) de Spark. Son objectif est de rendre le Machine Learning pratique, évolutif et facile. À un haut niveau, elle fournit des outils tels que :

  • Algorithmes ML : algorithmes d’apprentissage courants tels que la classification, la régression, le clustering et le filtrage collaboratif.
  • Featurisation : extraction, transformation, réduction de la dimensionnalité et sélection des caractéristiques.
  • Pipelines : outils pour la création, l’évaluation et le réglage des pipelines ML.
  • Persistance : sauvegarde et chargement des algorithmes, des modèles et des pipelines.
  • Utilitaires : algèbre linéaire, statistiques, manipulation de données, etc.

 

 

2. Vous pouvez connecter un programme R à un cluster Spark à partir de ________

A R Shell

B RStudio

C Rscript

D Tous les programmes ci-dessus

D
Tous les programmes ci-dessus.

 

 

3. Pour un problème de classification multiclasse, quel algorithme n’est pas la solution ?

A Forêts aléatoires (Random Forests)

B Régression logistique

C Arbres de Décision (AD)

D Naive Bayes

B
Les algorithmes populaires qui peuvent être utilisés pour la classification multi-classes comprennent :

  • Les k-voisins les plus proches.
  • Arbres de décision.
  • Naive Bayes.
  • Forêt aléatoire.
  • Gradient-Boosted.

Tous les modèles prédictifs de classification ne prennent pas en charge la classification multi-classes.

Les algorithmes tels que la régression logistique a été conçus pour la classification binaire et ne prennent pas en charge de manière native les tâches de classification comportant plus de deux classes.

Une approche permettant d’utiliser les algorithmes de classification binaire pour les problèmes de classification multi-classes consiste à diviser l’ensemble de données de classification multi-classes en plusieurs ensembles de données de classification binaire et à adapter un modèle de classification binaire sur chacun.

 

 
 

4. Pour un problème de régression, quel algorithme n’est pas la solution ?

A Gradient-Boosted Trees

B Arbres de Décision (AD)

C Régression de crête

D Régression logistique

D
L’algorithme de régression logistique est un algorithme de Machine Learning qui est utilisé pour les problèmes de classification binaire, c’est un algorithme d’analyse prédictive et basé sur le concept de probabilité.

 

 

5. Lequel des énoncés suivants est VRAIE à propos de DataFrame ?

A Les DataFrames offrent une API plus facile à utiliser que les RDD.

B L’API des DataFrames offre une sécurité au moment de la compilation.

C Les deux A et B

D Aucune de ces réponses

A
Les DataFrames offrent une API plus facile à utiliser que les RDD.

 

 

6. Lequel des éléments suivants est un outil de la bibliothèque du Machine Learning ?

A Persistance

B Pipelines

C Utilitaires comme l’algèbre linéaire et les statistiques

D Tous les outils ci-dessus

D
Tous les éléments ci-dessus sont des outils de la bibliothèque du Machine Learning.

 

 
 

7. MLlib est-il déprécié ?

A Oui

B Non

C Peut-être

D Je ne sais pas!

B
Non. MLlib comprend à la fois l’API basée sur RDD et l’API basée sur DataFrame. L’API basée sur RDD est maintenant en mode maintenance.

 

 

8. Lequel des énoncés suivants est FAUX pour Apache Spark ?

A Il fournit une API de haut niveau en Java, Python, R et Scala.

B Il peut être intégré à Hadoop et peut traiter les données HDFS existantes.

C Spark est un framework open source écrit en Java.

D Spark est 100 fois plus rapide que Bigdata Hadoop.

C
Spark est un framework open source écrit en Scala.

 

 

9. Lequel des énoncés suivants est VRAIE pour Spark SQL ?

A C’est le noyau de Spark

B Il fournit une plateforme d’exécution pour toutes les applications Spark.

C Il permet aux utilisateurs d’exécuter des requêtes SQL/HQL sur Spark.

D Il permet d’exécuter des applications interactives et d’analyse de données puissantes sur des données en direct.

C
Spark SQL permet aux utilisateurs d’exécuter des requêtes SQL/HQL sur Spark.

 

 
 

10. Lequel des énoncés suivants est VRAIE pour Spark core ?

A C’est le noyau de Spark

B Il permet aux utilisateurs d’exécuter des requêtes SQL/HQL sur Spark.

C Il s’agit d’une bibliothèque scalable de machine learning qui offre des performances.

D Améliore considérablement les performances des algorithmes itératifs.

A
Spark core est le noyau de Spark.

 

 

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *