QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 2

Questions d’Entretien sur Big Data avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur Big Data comprennent divers sujets tel que les principes de base du Big Data, Hadoop, l’écosystème et ses composants, l’analyse, Hypervisor, etc… Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur Big Data.
 
 

1. Hive supporte également les extensions personnalisées écrites en ___.

A C++

B C

C Java

D C#

C
Hive prend en charge les User Defined Functions (UDFs) écrites en Java. Cela permet d’étendre ses fonctionnalités en ajoutant des fonctions personnalisées pour le traitement des données.

 

 

2. Indiquez l’affirmation incorrecte:

A Elastic MapReduce (EMR) est l’offre Hadoop intégrée de Facebook.

B Amazon Web Service Elastic MapReduce (EMR) est l’offre Hadoop intégrée d’Amazon.

C Scalding est une API Scala au-dessus de Cascading qui supprime la plupart des formalités Java.

D Toutes les réponses sont vraies

A
EMR est un service d’Amazon Web Services (AWS), pas de Facebook.
Facebook a développé Presto (rebaptisé Trino), mais pas EMR.

 

 

3. _______ est un modèle informatique polyvalent et un système d’exécution pour l’analyse de données distribuées.

A Drill

B Mapreduce

C Oozie

D Aucune de ces réponses

B
La bonne réponse est MapReduce. MapReduce est un modèle informatique polyvalent ainsi qu’un système d’exécution conçu pour traiter et analyser de grandes quantités de données de manière distribuée sur un cluster de machines. Il divise le traitement en deux phases principales : la phase Map, qui transforme et filtre les données, et la phase Reduce, qui agrège les résultats intermédiaires. Ce modèle est largement utilisé dans l’écosystème Hadoop pour effectuer des tâches de traitement intensif sur des volumes massifs de données, ce qui le rend particulièrement adapté à l’analyse de données à grande échelle.

 

 
 

4. Le langage de script Pig Latin est non seulement un langage de flux de données de plus haut niveau, mais il possède également des opérateurs similaires à ______.

A XML

B JSON

C SQL

D Toutes les réponses sont vraies

C
Le Pig Latin, par définition, est conçu pour combler le vide entre le style déclaratif de SQL et le style procédural de bas niveau de MapReduce.

 

 

5. _______ Les jobs sont optimisés pour l’évolutivité mais pas pour la latence.

A Hive

B Oozie

C Drill

D Mapreduce

D
MapReduce est un modèle de traitement conçu pour être hautement évolutif, ce qui signifie qu’il peut gérer des volumes massifs de données répartis sur de nombreux nœuds d’un cluster. Cependant, il n’est pas optimisé pour la latence, car chaque job MapReduce implique plusieurs étapes (lecture, tri, écriture sur disque, etc.) qui prennent du temps. Cela le rend moins adapté aux traitements interactifs ou en temps réel, mais très efficace pour les traitements par lots à grande échelle.

 

 

6. ______ est un framework permettant d’effectuer des appels de procédure à distance et de sérialiser des données.

A Drill

B BigTop

C Avro

D Chukwa

C
Avro est un framework utilisé principalement dans l’écosystème Hadoop pour la sérialisation des données et les appels de procédure à distance (RPC). Il permet de convertir des objets ou des structures de données en un format binaire ou JSON afin qu’ils puissent être stockés ou transférés facilement entre des systèmes différents. Avro est très utilisé dans des systèmes distribués, car il offre un format compact et efficace, et il supporte l’évolution des schémas, ce qui est crucial dans les systèmes de Big Data.

 

 
 

7. Quelle est la base de données NoSQL la plus populaire pour le stockage évolutif de données volumineuses avec Hadoop ?

A Cassandra

B MongoDB

C Hbase

D Oracle

C
HBase est la base de données NoSQL la plus populaire pour le stockage évolutif de données volumineuses avec Hadoop: un entrepôt de Big Data distribué et évolutif qui vous permet d’héberger de très grandes tables – des milliards de lignes multipliées par des millions de colonnes – sur des clusters construits avec du matériel de commodité.

 

 

8. HBase fournit des capacités similaires à ___________ au-dessus de Hadoop et HDFS.

A Bigtable

B BigTop

C TopTable

D Oracle

A
HBase est un système de gestion de base de données distribuée et orientée colonne qui fournit des capacités similaires à Bigtable de Google. HBase est conçu pour fonctionner au-dessus de Hadoop et HDFS (Hadoop Distributed File System) pour stocker de grandes quantités de données de manière distribuée et permettre des accès rapides à ces données. Il est optimisé pour les lectures et écritures à faible latence, tout en étant capable de gérer des volumes massifs de données.

 

 
 

9. Indiquez l’affirmation incorrecte.

A Les solutions de stockage évolutives pour Hadoop d’EMC Isilon combinent une plate-forme de stockage puissante, simple et très efficace.

B L’intégration native HDFS d’Isilon vous évite d’avoir à investir dans une infrastructure Hadoop distincte.

C Les systèmes NoSQL fournissent un accès à haute latence et s’adaptent à un nombre réduit d’utilisateurs simultanés.

D Aucune de ces réponses

C
Les systèmes NoSQL offrent un accès à faible latence et peuvent accueillir de nombreux utilisateurs simultanés.

 

 

10. ______ sont hautement résilients et éliminent le risque de point de défaillance isolé des déploiements Hadoop traditionnels.

A Solutions Isilon

B AWS

C EMR

D Aucune de ces réponses

A
Les solutions Isilon (d’EMC) sont conçues pour offrir une résilience élevée et une gestion de données distribuées qui élimine le risque de point de défaillance unique, un problème courant dans les déploiements Hadoop traditionnels. Isilon fournit une plateforme de stockage évolutive et hautement résiliente, ce qui permet de gérer efficacement les déploiements Hadoop sans avoir à se soucier des points de défaillance isolés. Cette architecture garantit que les données sont stockées de manière sécurisée et fiable, même en cas de panne d’une partie du système.

 

 

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *