QCM sur Big Data corrigé – Principes de base – Partie 18

Questions d’Entretien sur Big Data avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur Big Data comprennent divers sujets tel que les principes de base du Big Data, Hadoop, l’écosystème et ses composants, l’analyse, Hypervisor, etc… Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur Big Data.
 
 

1. Si tu devais imaginer un monde sans Big Data, quel impact aurait-il ?

A Les entreprises auraient des prévisions ultra-précises.

B Les applications en temps réel seraient impossibles.

C On pourrait mieux gérer les données personnelles.

D Les réseaux sociaux seraient inondés de spam.

B
Sans Big Data, les applications en temps réel (comme la détection de fraudes ou les recommandations instantanées) seraient largement limitées.

 

 

2. Quel est le super-pouvoir de Apache Cassandra ?

A Stocker des milliards de photos en quelques secondes.

B Gérer des données volumineuses avec des requêtes SQL.

C Garantir une disponibilité constante même en cas de panne de serveur.

D Faire des prévisions météo ultra-précises.

C
Cassandra est hautement disponible et tolérant aux pannes, parfait pour des systèmes qui ne peuvent se permettre de perdre des données.

 

 

3. Imagine que tu es un data scientist. Quel outil choisis-tu pour visualiser des données Big Data en temps réel ?

A Jupyter Notebook

B Tableau

C Power BI

D Grafana

D
Grafana est idéal pour des tableaux de bord interactifs et en temps réel, parfait pour le monitoring de données volumineuses.

 

 
 

4. Si un système Big Data te dit « Je suis un cluster », il parle de :

A Un seul serveur très puissant

B Un réseau de serveurs interconnectés

C Une machine virtuelle isolée

D Une base de données sans structure

B
Un cluster est un ensemble de serveurs interconnectés, qui travaillent ensemble pour partager la charge de travail.

 

 

5. Qu’est-ce qu’un algorithme de machine learning pourrait faire avec des données Big Data ?

A Il pourrait classer, prédire, ou recommander des actions basées sur ces données

B Il stockerait simplement ces données dans une base NoSQL

C Il chercherait à supprimer des doublons uniquement

D Il compresserait les données pour les rendre plus petites

A
Les algorithmes de machine learning sont utilisés pour analyser et extraire des modèles (comme des prédictions, des classifications ou des recommandations) à partir de grandes quantités de données.

 

 

6. Quel outil Big Data te permet de rejoindre plusieurs sources de données différentes et de les interroger avec un langage SQL-like ?

A Apache Hive

B Apache Drill

C Apache NiFi

D Apache Sqoop

B
Apache Drill permet d’interroger plusieurs types de sources de données différentes (SQL, NoSQL, fichiers, etc.) avec des requêtes SQL, sans avoir besoin de modifier les données.

 

 
 

7. Si tu voulais créer un fichier JSON pour stocker une liste de produits avec leurs noms, prix et disponibilité, quelle structure choisirais-tu ?

A { "produits": [{ "nom": "P1", "prix": 25, "disponible": true }] }

B { "produits": { "nom": "P1", "prix": 25, "disponible": true } }

C { "produits": ["P1", "P2", "P3"] }

D { "produits": "P1, P2, P3" }

A
La structure JSON correcte pour stocker un tableau d’objets détaillés (nom, prix, disponibilité) est celle de la réponse A, où chaque produit est un objet avec des attributs.

 

 

8. Si tu devais expliquer HDFS à un enfant de 8 ans, tu dirais :

A HDFS est un gros ordinateur qui garde tout ce qu’on écrit.

B HDFS est un coffre-fort magique où tu peux stocker des fichiers et les retrouver facilement.

C HDFS est un jeu vidéo pour organiser des données.

D HDFS est comme un livre d’école avec des pages distribuées sur toute la planète.

B
HDFS (Hadoop Distributed File System) permet de stocker des fichiers sur plusieurs ordinateurs, garantissant que les données sont accessibles et protégées en cas de panne.

 

 

9. Dans un monde de data lakes, pourquoi les données sont-elles stockées « en vrac » plutôt que traitées directement ?

A Pour qu’elles soient plus faciles à analyser après qu’elles aient été organisées.

B Parce qu’on ne sait pas ce qu’elles contiennent et on veut juste les garder pour plus tard.

C Parce qu’elles n’ont pas besoin d’être accessibles en temps réel.

D Parce qu’elles sont trop difficiles à organiser.

B
Les Data Lakes permettent de stocker des données brutes, sans les structurer à l’avance, afin de pouvoir les analyser ou les organiser plus tard, selon les besoins spécifiques.

 

 
 

10. Quelle technologie serait idéale pour faire des recherches ultra-rapides sur des données semi-structurées ?

A Apache Hive

B Apache Flink

C Apache Kafka

D Apache Drill

D
Apache Drill est parfait pour exécuter des requêtes SQL sur données semi-structurées (JSON, Parquet, etc.) et interroger différentes sources de données sans avoir besoin de schéma préétabli.

 

 

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *