QCM sur Big Data corrigé – Principes de base – Partie 21

Questions d’Entretien sur Big Data avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur Big Data comprennent divers sujets tel que les principes de base du Big Data, Hadoop, l’écosystème et ses composants, l’analyse, Hypervisor, etc… Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur Big Data.
 
 

1. Quelle est la caractéristique principale qui distingue le Big Data des ensembles de données traditionnels ?

A La complexité des algorithmes d’analyse

B La taille massive des données

C La fréquence des mises à jour

D Le type de matériel utilisé pour le stockage

 

2. Lequel des « V » du Big Data fait référence à la diversité des types de données (structurées, non structurées, semi-structurées) ?

A Volume

B Vélocité

C Variété

D Véracité

 

3. Quel est le principal défi lié à la Vélocité des données dans le Big Data ?

A La complexité de la modélisation des données.

B La nécessité de traiter les données en temps réel ou quasi réel.

C Le grand nombre de sources de données différentes.

D La garantie de la qualité et de la fiabilité des données.

 
 

4. Quel type d’architecture est couramment utilisé pour ingérer et traiter des flux de données en temps réel avant de les stocker pour une analyse ultérieure (par exemple, dans un data lake) ?

A Architecture Lambda

B Architecture en étoile (Star Schema)

C Architecture en flocon de neige (Snowflake Schema)

D Architecture trois-tiers

 

5. Quelle est la signification de l’acronyme ETL dans le contexte de l’intégration des données pour le Big Data ou les data warehouses ?

A Extract, Transform, Load

B Execute, Transfer, Log

C Encrypt, Transmit, Locate

D Evaluate, Train, Learn

6. Les données non traitées ou les données traitées sont des observations ou des mesures qui peuvent être exprimées sous forme de texte, de chiffres ou d’autres types de médias.

A Vrai

B Faux

 

7. En informatique, ____ est une représentation symbolique des faits ou de concepts à partir desquels des informations peuvent être obtenues avec un degré raisonnable de confiance.

A Connaissance

B Données

C Programme

D Algorithme

 

8. Les données structurées se conforment à un modèle ou à un schéma de données et sont souvent stockées sous forme de tableaux.

A Vrai

B Faux

 

9. Les données qui ne sont pas conformes à un modèle de données ou à un schéma de données sont connues sous le nom de ______.

A Données structurées

B Données non structurées

C Données semi-structurées

D Tout ce qui est mentionné ci-dessus

 
 

10. Quel composant de l’écosystème Spark permet d’exécuter des requêtes SQL ?

A Spark Core

B Spark MLlib

C Spark SQL

D Spark Streaming

11. Qu’est-ce qu’un DataFrame dans Apache Spark ?

A Une base de données relationnelle distribuée

B Une table SQL sur HDFS

C Un format de fichier spécifique au cloud

D Une structure de données tabulaire similaire à une table avec schéma, utilisée pour des opérations distribuées

12. Dans une application Big Data, pourquoi utiliser un système comme Redis ?

A Pour créer un data lake

B Pour analyser des vidéos

C Pour faire du batch processing sur HDFS

D Pour stocker temporairement des données en mémoire avec une très faible latence

13. Quel est l’avantage principal des fonctions UDF (User Defined Functions) dans Spark SQL ?

A Elles compressent les données dans HDFS

B Elles permettent d’étendre les capacités de Spark avec des fonctions personnalisées

C Elles créent des interfaces graphiques

D Elles remplacent les fonctions SQL classiques

 

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *