QCM sur Big Data corrigé – Principes de base – Partie 21

Questions d’Entretien sur Big Data avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur Big Data comprennent divers sujets tel que les principes de base du Big Data, Hadoop, l’écosystème et ses composants, l’analyse, Hypervisor, etc… Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur Big Data.
 
 

1. Quelle est la caractéristique principale qui distingue le Big Data des ensembles de données traditionnels ?

A La complexité des algorithmes d’analyse

B La taille massive des données

C La fréquence des mises à jour

D Le type de matériel utilisé pour le stockage

B
Le Big Data se distingue principalement par le volume très important des données à traiter.

 

 

2. Lequel des « V » du Big Data fait référence à la diversité des types de données (structurées, non structurées, semi-structurées) ?

A Volume

B Vélocité

C Variété

D Véracité

C
La Variété englobe les différents formats de données rencontrés dans le Big Data, tels que les textes, les images, les vidéos, les données de capteurs, les logs, etc., en plus des données relationnelles traditionnelles.

 

 

3. Quel est le principal défi lié à la Vélocité des données dans le Big Data ?

A La complexité de la modélisation des données.

B La nécessité de traiter les données en temps réel ou quasi réel.

C Le grand nombre de sources de données différentes.

D La garantie de la qualité et de la fiabilité des données.

B
La Vélocité fait référence à la vitesse à laquelle les données sont générées et doivent être traitées. Le défi est de pouvoir ingérer, analyser et réagir à ces flux de données rapides en temps opportun.

 

 
 

4. Quel type d’architecture est couramment utilisé pour ingérer et traiter des flux de données en temps réel avant de les stocker pour une analyse ultérieure (par exemple, dans un data lake) ?

A Architecture Lambda

B Architecture en étoile (Star Schema)

C Architecture en flocon de neige (Snowflake Schema)

D Architecture trois-tiers

A
L’architecture Lambda est une architecture de traitement de données conçue pour gérer les données en temps réel et par lots. Elle comprend une couche de vitesse (pour le traitement en temps réel) et une couche de lots (pour le traitement historique), avec une couche de service pour fusionner les résultats.

 

 

5. Quelle est la signification de l’acronyme ETL dans le contexte de l’intégration des données pour le Big Data ou les data warehouses ?

A Extract, Transform, Load

B Execute, Transfer, Log

C Encrypt, Transmit, Locate

D Evaluate, Train, Learn

A
ETL est un processus en trois étapes utilisé pour intégrer des données provenant de diverses sources dans un format cohérent pour l’analyse. Il consiste à extraire les données, à les transformer (nettoyage, conversion, agrégation) et à les charger dans le système cible (data warehouse, data lake, etc.).

 

6. Les données non traitées ou les données traitées sont des observations ou des mesures qui peuvent être exprimées sous forme de texte, de chiffres ou d’autres types de médias.

A Vrai

B Faux

A
Les données non traitées ou les données traitées sont des observations ou des mesures qui peuvent être exprimées sous forme de texte, de chiffres ou d’autres types de supports. En statistique, un point de données, ou observation, est une collection d’une ou plusieurs mesures prises sur un seul membre de l’unité d’observation (ou unité d’observation). Exemple : Si l’unité d’observation est un particulier et que la question de recherche porte sur les déterminants de la croissance de la demande de liquidités, un point de données peut être les valeurs du revenu, de la richesse, de l’âge du particulier et du nombre de personnes à charge.

 

 

7. En informatique, ____ est une représentation symbolique des faits ou de concepts à partir desquels des informations peuvent être obtenues avec un degré raisonnable de confiance.

A Connaissance

B Données

C Programme

D Algorithme

B
En informatique, des informations peuvent être dérivées de données si ces dernières fournissent une représentation symbolique des faits ou de concepts à partir desquels une certaine probabilité peut être calculée. Bien que le résumé de très grands ensembles de données puisse donner lieu à des ensembles de données plus petits composés principalement de données symboliques, les données symboliques sont différentes en soi, quelle que soit la taille de l’ensemble de données, quelle que soit sa taille.

 

 

8. Les données structurées se conforment à un modèle ou à un schéma de données et sont souvent stockées sous forme de tableaux.

A Vrai

B Faux

A
Les données structurées sont des données qui ont été organisées selon un modèle ou un schéma de données et qui sont souvent stockées sous forme de tableaux. Comme elles sont utilisées pour enregistrer les relations entre des éléments différents, elles sont le plus souvent stockées dans une base de données relationnelle. Les applications d’entreprise et les systèmes d’information, tels que les systèmes ERP et CRM, sont souvent responsables de la génération de données structurées.

 

 

9. Les données qui ne sont pas conformes à un modèle de données ou à un schéma de données sont connues sous le nom de ______.

A Données structurées

B Données non structurées

C Données semi-structurées

D Tout ce qui est mentionné ci-dessus

B
On parle de données non structurées lorsque les données ne sont pas conformes à un modèle de données ou à un schéma de données. Selon certaines estimations, les données non structurées représenteraient 80% de toutes les données d’une organisation donnée. Le taux de croissance des données non structurées est plus rapide que celui des données structurées. SQL ne peut pas être utilisé pour traiter ou interroger des données non structurées puisqu’elles ne sont pas structurées.

 

 
 

10. Quel composant de l’écosystème Spark permet d’exécuter des requêtes SQL ?

A Spark Core

B Spark MLlib

C Spark SQL

D Spark Streaming

C
Spark SQL est un module de Spark permettant de travailler avec des données structurées à l’aide du langage SQL ou de l’API DataFrame. Il permet d’exécuter des requêtes performantes sur des données massives.

 

11. Qu’est-ce qu’un DataFrame dans Apache Spark ?

A Une base de données relationnelle distribuée

B Une table SQL sur HDFS

C Un format de fichier spécifique au cloud

D Une structure de données tabulaire similaire à une table avec schéma, utilisée pour des opérations distribuées

D
Un DataFrame est une abstraction de Spark représentant une table distribuée avec schéma, optimisée pour les opérations parallèles et les transformations complexes.

 

12. Dans une application Big Data, pourquoi utiliser un système comme Redis ?

A Pour créer un data lake

B Pour analyser des vidéos

C Pour faire du batch processing sur HDFS

D Pour stocker temporairement des données en mémoire avec une très faible latence

D
Redis est une base de données clé-valeur en mémoire, extrêmement rapide, utilisée pour la mise en cache, le stockage temporaire ou les opérations nécessitant une très faible latence.

 

13. Quel est l’avantage principal des fonctions UDF (User Defined Functions) dans Spark SQL ?

A Elles compressent les données dans HDFS

B Elles permettent d’étendre les capacités de Spark avec des fonctions personnalisées

C Elles créent des interfaces graphiques

D Elles remplacent les fonctions SQL classiques

B
Les UDFs permettent d’intégrer du code personnalisé dans des requêtes Spark SQL pour effectuer des traitements spécifiques qui ne sont pas couverts par les fonctions standard.

 

 

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *