QCM sur Big Data corrigé – Principes de base – Partie 15

Questions d’Entretien sur Big Data avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur Big Data comprennent divers sujets tel que les principes de base du Big Data, Hadoop, l’écosystème et ses composants, l’analyse, Hypervisor, etc… Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur Big Data.
 
 

1. Dans le cadre de HDFS, les DataNodes sont responsables de quoi ?

A De stocker les métadonnées des fichiers dans le cluster.

B D’initier des tâches MapReduce.

C De stocker réellement les données, sous forme de blocs répartis sur le cluster.

D De gérer la réplication des blocs sur les différents nœuds du cluster.

C
Les DataNodes sont les nœuds de stockage d’un cluster HDFS. Ils sont responsables du stockage des blocs de données réels et de la gestion de leur lecture/écriture. La réplication des données entre les DataNodes est également effectuée par ces nœuds pour garantir la tolérance aux pannes.

 

 

2. Quelle fonctionnalité d’Apache HBase le rend particulièrement adapté aux applications qui nécessitent un accès en temps réel aux données ?

A Stockage de données dans un format compact.

B Organisation des données sous forme de paires clé-valeur.

C Traitement parallèle des données sur plusieurs nœuds.

D Gestion de la réplication automatique des données.

B
HBase utilise un modèle de stockage clé-valeur où chaque donnée est associée à une clé unique, ce qui permet un accès rapide aux données en temps réel. Cette organisation est idéale pour des requêtes rapides et efficaces sur de grandes quantités de données.

 

 

3. Dans Apache Kafka, quelle est la principale fonction des topics ?

A Assurer la sécurité des messages échangés entre les producteurs et les consommateurs.

B Déterminer la fréquence de lecture des messages dans les queues.

C Organiser les messages en différentes catégories, où les producteurs envoient et les consommateurs lisent.

D Gérer l’accès aux bases de données externes pour l’intégration des données.

C
Dans Apache Kafka, les topics sont des catégories où les producteurs écrivent des messages, et les consommateurs lisent ces messages. Les topics permettent de segmenter les flux de messages en différentes catégories, facilitant ainsi la gestion des données dans un environnement distribué.

 

 
 

4. Dans un système Hadoop, quel est le rôle du ResourceManager dans YARN ?

A Gérer les données et les fichiers dans le système de fichiers distribué HDFS.

B Gérer les ressources du cluster et planifier les tâches d’exécution des applications.

C Assurer l’exécution parallèle des jobs MapReduce.

D Gérer la communication entre les différents nœuds du cluster.

B
Le ResourceManager dans YARN est responsable de la gestion des ressources du cluster Hadoop. Il alloue les ressources nécessaires aux différentes applications et planifie l’exécution des tâches en fonction des ressources disponibles.

 

 

5. Quel est l’intérêt de partitionner les données dans un système Big Data ?

A Réduire la sécurité des données pour faciliter l’accès

B Améliorer la rapidité de traitement et la parallélisation

C Compresser les fichiers pour gagner de l’espace disque

D Assurer une cohérence forte entre les bases relationnelles

B
Le partitionnement divise les données en sous-ensembles (partitions) permettant leur traitement parallèle sur plusieurs nœuds du cluster, ce qui améliore les performances globales du système.

 

 

6. Quel est le composant d’Hadoop qui stocke les métadonnées des fichiers et répertoires dans HDFS ?

A DataNode

B NameNode

C Secondary NameNode

D JobTracker

B
Le NameNode est le nœud maître de HDFS. Il gère les métadonnées: structure des dossiers, noms de fichiers, emplacement des blocs, etc. Les DataNodes, eux, stockent les blocs de données réels.

 

 
 

7. Quel type de base de données est MongoDB ?

A Base de données relationnelle

B Base de données orientée graphes

C Base de données orientée colonnes

D Base de données orientée documents

D
MongoDB est une base de données NoSQL orientée documents. Elle stocke les données dans des documents BSON (format proche de JSON), ce qui la rend flexible et adaptée à des données semi-structurées.

 

 

8. Quelle affirmation décrit le partitionnement dans Hadoop ?

A Une méthode de cryptage des données

B Une méthode de compression des fichiers volumineux

C Une division logique des données pour permettre le traitement parallèle

D Une sauvegarde automatique des fichiers sensibles

C
Le partitionnement divise les données en morceaux indépendants qui peuvent être traités en parallèle par différents nœuds du cluster Hadoop, améliorant ainsi la performance et la scalabilité.

 

 

9. Dans le contexte de Kafka, que fait un producteur ?

A Il lit les messages depuis un topic

B Il envoie des messages dans un topic

C Il stocke des messages dans des fichiers locaux

D Il visualise les données Kafka via une interface graphique

B
Un producteur dans Apache Kafka est une application ou un processus qui publie (produit) des messages dans un topic, que des consommateurs liront ensuite.

 

 
 

10. Lequel des éléments suivants est un avantage clé du stockage en format orientée colonnes (comme Parquet ou ORC) ?

A Compression inefficace

B Lecture plus rapide des lignes entières

C Optimisation des requêtes sur certaines colonnes

D Pas de support pour les types de données complexes

C
Les formats orientée colonnes permettent de lire uniquement les colonnes nécessaires à une requête. Cela réduit la quantité de données lues en mémoire et accélère les performances, surtout dans les requêtes analytiques.

 

 

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *