QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 2

juin 14, 2022juin 26, 2026 Thomas Aucun commentaire Big Data, corrigé, embauche, entretien, examen big data, exemple test, pdf, qcm big data corrigé, qcm big data hadoop, qcm big data pdf, qcm introduction big data, Question entretien

Questions d’Entretien sur Big Data avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur Big Data comprennent divers sujets tel que les principes de base du Big Data, Hadoop, l’écosystème et ses composants, l’analyse, Hypervisor, etc… Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur Big Data.

1. Hive supporte également les extensions personnalisées écrites en ___.

A C++

B C

C Java

D C#

Hive prend en charge les User Defined Functions (UDFs) écrites en Java. Cela permet d’étendre ses fonctionnalités en ajoutant des fonctions personnalisées pour le traitement des données.

2. Indiquez l’affirmation incorrecte:

A Elastic MapReduce (EMR) est l’offre Hadoop intégrée de Facebook.

B Amazon Web Service Elastic MapReduce (EMR) est l’offre Hadoop intégrée d’Amazon.

C Scalding est une API Scala au-dessus de Cascading qui supprime la plupart des formalités Java.

D Toutes les réponses sont vraies

EMR est un service d’Amazon Web Services (AWS), pas de Facebook.
Facebook a développé Presto (rebaptisé Trino), mais pas EMR.

3. _______ est un modèle informatique polyvalent et un système d’exécution pour l’analyse de données distribuées.

A Drill

B Mapreduce

C Oozie

D Aucune de ces réponses

La bonne réponse est MapReduce. MapReduce est un modèle informatique polyvalent ainsi qu’un système d’exécution conçu pour traiter et analyser de grandes quantités de données de manière distribuée sur un cluster de machines. Il divise le traitement en deux phases principales : la phase Map, qui transforme et filtre les données, et la phase Reduce, qui agrège les résultats intermédiaires. Ce modèle est largement utilisé dans l’écosystème Hadoop pour effectuer des tâches de traitement intensif sur des volumes massifs de données, ce qui le rend particulièrement adapté à l’analyse de données à grande échelle.

4. Le langage de script Pig Latin est non seulement un langage de flux de données de plus haut niveau, mais il possède également des opérateurs similaires à ______.

A XML

B JSON

C SQL

D Toutes les réponses sont vraies

Le Pig Latin, par définition, est conçu pour combler le vide entre le style déclaratif de SQL et le style procédural de bas niveau de MapReduce.

5. _______ Les jobs sont optimisés pour l’évolutivité mais pas pour la latence.

A Hive

B Oozie

C Drill

D Mapreduce

MapReduce est un modèle de traitement conçu pour être hautement évolutif, ce qui signifie qu’il peut gérer des volumes massifs de données répartis sur de nombreux nœuds d’un cluster. Cependant, il n’est pas optimisé pour la latence, car chaque job MapReduce implique plusieurs étapes (lecture, tri, écriture sur disque, etc.) qui prennent du temps. Cela le rend moins adapté aux traitements interactifs ou en temps réel, mais très efficace pour les traitements par lots à grande échelle.

6. ______ est un framework permettant d’effectuer des appels de procédure à distance et de sérialiser des données.

A Drill

B BigTop

C Avro

D Chukwa

Avro est un framework utilisé principalement dans l’écosystème Hadoop pour la sérialisation des données et les appels de procédure à distance (RPC). Il permet de convertir des objets ou des structures de données en un format binaire ou JSON afin qu’ils puissent être stockés ou transférés facilement entre des systèmes différents. Avro est très utilisé dans des systèmes distribués, car il offre un format compact et efficace, et il supporte l’évolution des schémas, ce qui est crucial dans les systèmes de Big Data.

7. Quelle est la base de données NoSQL la plus populaire pour le stockage évolutif de données volumineuses avec Hadoop ?

A Cassandra

B MongoDB

C Hbase

D Oracle

HBase est la base de données NoSQL la plus populaire pour le stockage évolutif de données volumineuses avec Hadoop: un entrepôt de Big Data distribué et évolutif qui vous permet d’héberger de très grandes tables – des milliards de lignes multipliées par des millions de colonnes – sur des clusters construits avec du matériel de commodité.

8. HBase fournit des capacités similaires à ___________ au-dessus de Hadoop et HDFS.

A Bigtable

B BigTop

C TopTable

D Oracle

HBase est un système de gestion de base de données distribuée et orientée colonne qui fournit des capacités similaires à Bigtable de Google. HBase est conçu pour fonctionner au-dessus de Hadoop et HDFS (Hadoop Distributed File System) pour stocker de grandes quantités de données de manière distribuée et permettre des accès rapides à ces données. Il est optimisé pour les lectures et écritures à faible latence, tout en étant capable de gérer des volumes massifs de données.

9. Indiquez l’affirmation incorrecte.

A Les solutions de stockage évolutives pour Hadoop d’EMC Isilon combinent une plate-forme de stockage puissante, simple et très efficace.

B L’intégration native HDFS d’Isilon vous évite d’avoir à investir dans une infrastructure Hadoop distincte.

C Les systèmes NoSQL fournissent un accès à haute latence et s’adaptent à un nombre réduit d’utilisateurs simultanés.

D Aucune de ces réponses

Les systèmes NoSQL offrent un accès à faible latence et peuvent accueillir de nombreux utilisateurs simultanés.

10. ______ sont hautement résilients et éliminent le risque de point de défaillance isolé des déploiements Hadoop traditionnels.

A Solutions Isilon

B AWS

C EMR

D Aucune de ces réponses

Les solutions Isilon (d’EMC) sont conçues pour offrir une résilience élevée et une gestion de données distribuées qui élimine le risque de point de défaillance unique, un problème courant dans les déploiements Hadoop traditionnels. Isilon fournit une plateforme de stockage évolutive et hautement résiliente, ce qui permet de gérer efficacement les déploiements Hadoop sans avoir à se soucier des points de défaillance isolés. Cette architecture garantit que les données sont stockées de manière sécurisée et fiable, même en cas de panne d’une partie du système.

QCMs qui pourraient vous intéresser :

1. Hive supporte également les extensions personnalisées écrites en ___.

2. Indiquez l’affirmation incorrecte:

3. _______ est un modèle informatique polyvalent et un système d’exécution pour l’analyse de données distribuées.

4. Le langage de script Pig Latin est non seulement un langage de flux de données de plus haut niveau, mais il possède également des opérateurs similaires à ______.

5. _______ Les jobs sont optimisés pour l’évolutivité mais pas pour la latence.

6. ______ est un framework permettant d’effectuer des appels de procédure à distance et de sérialiser des données.

7. Quelle est la base de données NoSQL la plus populaire pour le stockage évolutif de données volumineuses avec Hadoop ?

8. HBase fournit des capacités similaires à ___________ au-dessus de Hadoop et HDFS.

9. Indiquez l’affirmation incorrecte.

10. ______ sont hautement résilients et éliminent le risque de point de défaillance isolé des déploiements Hadoop traditionnels.

Vous pourrez aussi aimer

QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 14

QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 21

QCM sur Big Data corrigé – Principes de base – Partie 21

Laisser un commentaire Annuler la réponse