QCM sur Big Data corrigé – Principes de base – Partie 17

Questions d’Entretien sur Big Data avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur Big Data comprennent divers sujets tel que les principes de base du Big Data, Hadoop, l’écosystème et ses composants, l’analyse, Hypervisor, etc… Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur Big Data.
 
 

1. Apache Cassandra est une base de données :

A Relationnelle

B Orientée colonnes

C Orientée graphe

D Orientée documents

B
Apache Cassandra est une base de données NoSQL orientée colonnes hautement scalable, conçue pour gérer de grandes quantités de données réparties sur plusieurs serveurs.

 

 

2. Lequel de ces outils est principalement utilisé pour planifier et orchestrer des workflows Big Data ?

A Apache Flume

B Apache Oozie

C Apache Storm

D Apache Drill

B
Apache Oozie est un orchestrateur de workflow, utilisé pour programmer des jobs Hadoop, les organiser en séquences conditionnelles, et gérer les dépendances.

 

 

3. Apache Pig utilise quel type de langage ?

A Langage de bas niveau système

B Langage déclaratif SQL-like

C Langage procédural de haut niveau (Pig Latin)

D Langage graphique

C
Apache Pig utilise Pig Latin, un langage procédural de haut niveau qui simplifie le traitement des données dans Hadoop en cachant la complexité de MapReduce.

 

 
 

4. Quelle combinaison représente un pipeline de données Big Data typique ?

A Kafka → Spark → Tableau

B Excel → MySQL → Outlook

C MongoDB → HDFS → Paint

D Oozie → Photoshop → Twitter

A
Kafka pour l’ingestion de données en streaming, Spark pour le traitement, et Tableau pour la visualisation : c’est un flux typique dans les architectures Big Data modernes.

 

 

5. Quel outil est particulièrement adapté pour des ETL (Extract, Transform, Load) en temps réel ?

A Apache NiFi

B Apache Pig

C Apache Drill

D Apache Sqoop

A
Apache NiFi permet de concevoir des flux de données visuels (dataflows) avec transformation et routage en temps réel, via une interface graphique drag-and-drop.

 

 

6. Dans l’écosystème Big Data, Airflow est utilisé pour :

A Ingestion de logs

B Création de dashboards

C Orchestration de workflows complexes

D Analyse de réseaux de neurones

C
Apache Airflow permet de planifier, exécuter et surveiller des workflows complexes (pipelines de données) via des DAGs (Directed Acyclic Graphs).

 

 
 

7. Quel est l’intérêt principal d’un moteur de traitement in-memory comme Spark ?

A Il réduit la quantité de RAM utilisée

B Il permet le traitement distribué sur disque

C Il est uniquement compatible avec des données structurées

D Il réduit significativement le temps de traitement grâce à la mémoire vive

D
Apache Spark utilise la mémoire (RAM) pour stocker les données intermédiaires pendant le traitement, ce qui réduit le temps d’exécution par rapport à MapReduce qui écrit/relit sur disque entre chaque étape.

 

 

8. Quel est l’intérêt du langage SQL-on-Hadoop, comme dans Apache Hive ou Presto ?

A Gérer le cluster Hadoop

B Offrir une interface de programmation orientée objet

C Exécuter des requêtes SQL directement sur des données massives stockées dans Hadoop

D Créer des dashboards visuels

C
Des moteurs SQL-on-Hadoop comme Hive, Presto, Impala permettent d’exécuter des requêtes SQL directement sur les fichiers dans HDFS, rendant l’analyse de données Big Data accessible aux analystes maîtrisant SQL.

 

 

9. Pourquoi utilise-t-on des fonctions de fenêtrage (window functions) dans l’analyse Big Data ?

A Pour diviser les fichiers en petits blocs sur HDFS

B Pour appliquer des opérations d’agrégation sur des groupes de lignes avec un contexte

C Pour supprimer les doublons dans une base NoSQL

D Pour créer des dashboards plus lisibles

B
Les window functions permettent de faire des calculs (ex. somme, moyenne, rang) sur un groupe de lignes liées à la ligne courante, sans regrouper les lignes comme le ferait un GROUP BY. Très utile en analyse avancée !

 

 
 

10. Qu’est-ce qu’un job dans l’écosystème Hadoop ?

A Un fichier contenant les données à traiter

B Une unité de travail ou une tâche de traitement dans un système distribué

C Une interface utilisateur pour visualiser les résultats des analyses

D Un processus de sauvegarde des données

B
Un job dans Hadoop représente un ensemble de tâches qui peuvent être exécutées parallèlement sur le cluster. Un job peut inclure des étapes comme Map, Shuffle et Reduce, qui constituent les étapes de traitement des données.

 

 

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *