QCM sur Big Data corrigé – Principes de base – Partie 20

Questions d’Entretien sur Big Data avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur Big Data comprennent divers sujets tel que les principes de base du Big Data, Hadoop, l’écosystème et ses composants, l’analyse, Hypervisor, etc… Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur Big Data.
 
 

1. Quel est l’intérêt de l’indexation dans les systèmes Big Data ?

A Améliorer la sécurité des données

B Faciliter la recherche et l’accès rapide aux données

C Réduire la taille des fichiers

D Sauvegarder les données dans des formats compressés

B
L’indexation permet de créer des structures d’index qui optimisent la vitesse des recherches et des requêtes, réduisant ainsi le temps d’accès aux données, en particulier dans de grands ensembles de données.

 

 

2. Qu’est-ce qu’une tableau de bord (Dashboard) dans un contexte Big Data ?

A Un fichier de données brutes

B Un type de base de données relationnelle

C Un outil de stockage de données non structurées

D Une interface de visualisation des résultats d’analyse et des KPI

D
Un tableau de bord est une interface visuelle qui présente des graphiques, des indicateurs clés de performance (KPI), et d’autres informations critiques de manière concise et facile à comprendre, souvent utilisée pour suivre et analyser les données en temps réel.

 

 

3. Quel est l’objectif principal de l’utilisation des clouds publics comme AWS, Google Cloud ou Azure pour le Big Data ?

A Augmenter les coûts de stockage

B Assurer une gestion centralisée de toutes les données

C Fournir des services évolutifs et un traitement distribué à grande échelle

D Limiter l’accès aux données à un seul serveur

C
Les clouds publics comme AWS, Google Cloud, et Azure offrent des solutions scalables qui permettent d’étendre les ressources de calcul et de stockage de manière dynamique, facilitant ainsi le traitement de volumes massifs de données à grande échelle.

 

 
 

4. Qu’est-ce qu’une fonction d’agrégation dans le contexte de Big Data ?

A Une opération qui permet de regrouper les données par date

B Une opération qui combine plusieurs valeurs en une seule

C Une fonction qui extrait les données depuis des bases relationnelles

D Une procédure pour sauvegarder les données

B
Une fonction d’agrégation combine plusieurs valeurs pour en produire une seule. Par exemple, des fonctions comme SUM, AVG, COUNT, etc., sont utilisées pour agréger des données dans des bases de données ou des systèmes de traitement Big Data.

 

 

5. Qu’est-ce que le shuffling dans un job MapReduce ?

A Le tri des fichiers par nom

B L’envoi des résultats de la phase Map vers la phase Reduce

C La conversion des données structurées en non structurées

D La compression automatique des données traitées

B
Le shuffling est une étape clé du traitement MapReduce, où les sorties générées par les tâches Map sont redistribuées aux tâches Reduce selon les clés. Cela permet de regrouper les données associées à la même clé.

 

 

6. Dans un contexte Big Data, que signifie scalabilité horizontale ?

A Augmenter les capacités d’un seul serveur

B Réduire la latence de traitement

C Ajouter plusieurs serveurs pour répartir la charge

D Compresser les fichiers pour gagner de l’espace

C
La scalabilité horizontale consiste à ajouter plus de machines dans un système distribué afin d’augmenter les capacités de traitement et de stockage. C’est un principe fondamental des architectures Big Data.

 

 
 

7. Dans Apache Spark, que signifie RDD ?

A Relational Data Deployment

B Real-time Data Dump

C Resilient Distributed Dataset

D Reactive Distributed Dataframe

C
Un RDD est la structure de données de base de Spark. C’est un ensemble de données tolérant aux pannes et distribué sur le cluster, qui permet un traitement parallèle efficace.

 

 

8. Quel est le principal avantage de l’architecture Lambda dans le traitement Big Data ?

A Réduire le nombre de bases de données nécessaires

B Combiner traitement en batch et traitement en streaming pour une analyse complète

C Simplifier le codage SQL

D Supprimer le besoin d’outils de visualisation

B
L’architecture Lambda permet de gérer les flux de données en temps réel (stream) tout en gardant un historique complet via le traitement batch, offrant une solution robuste pour les systèmes Big Data hybrides.

 

 

9. Que signifie le terme data lineage ?

A La taille d’un fichier de données

B La structure interne d’un fichier

C Le schéma de réplication d’un cluster Hadoop

D La traçabilité complète de l’origine, de la transformation et de la destination des données

D
Le data lineage est essentiel pour la gouvernance des données. Il permet de suivre chaque étape subie par les données: depuis leur origine jusqu’à leur consommation, utile pour l’audit, la qualité et la conformité.

 

 
 

10. Quelle technologie est spécialisée dans l’indexation et la recherche de données textuelles dans le Big Data ?

A Apache Hive

B Apache Storm

C Elasticsearch

D Apache Pig

C
Elasticsearch est un moteur de recherche et d’indexation temps réel, distribué et basé sur Lucene. Il est utilisé pour la recherche full-text, l’analyse log, et la visualisation (souvent couplé avec Kibana).

 

 

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *