QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 1

Questions d’Entretien sur Big Data avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur Big Data comprennent divers sujets tel que les principes de base du Big Data, Hadoop, l’écosystème et ses composants, l’analyse, Hypervisor, etc… Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur Big Data.
 
 

1. Indiquez l’affirmation correcte.

A Hadoop est un environnement idéal pour extraire et transformer de petits volumes de données.

B Hadoop stocke les données dans HDFS et prend en charge la compression/décompression des données.

C Le framework Giraph est moins utile qu’une tâche MapReduce pour résoudre les problèmes de graphes et d’apprentissage automatique.

D Aucune de ces réponses

B
La compression des données peut être réalisée à l’aide d’algorithmes de compression comme bzip2, gzip, LZO, etc. Différents algorithmes peuvent être utilisés dans différents scénarios en fonction de leurs capacités.

 

 

2. Sous quelle licence Hadoop est-il distribué ?

A Licence Apache 2.0

B Mozilla Public License

C Shareware

D Commerciale

A
Hadoop est un logiciel libre, publié sous la licence Apache 2.

 

 

3. En quel langage Hadoop a-t-il été écrit ?

A Python

B Java

C Perl

D C++

B
La structure Hadoop elle-même est principalement écrite dans le langage de programmation Java, avec un peu de code natif en C et des utilitaires de ligne de commande écrits sous forme de scripts shell.

 

 
 

4. Lequel des éléments suivants est produit par Hadoop ?

A Système de fichiers distribués

B Service de messages Java

C JAX-RS

D Système de gestion de bases de données relationnelles

A
Le système de fichiers distribués Hadoop (HDFS) est conçu pour stocker de manière fiable de très grands ensembles de données et pour transmettre ces ensembles de données à l’utilisateur sur une large bande passante.

 

 

5. Sur laquelle des plateformes suivantes Hadoop fonctionne-t-il ?

A Debian

B Unix

C Multiplateformes

D Android

C
Hadoop prend en charge les systèmes d’exploitation multiplateformes.

 

 

6. Hadoop atteint la fiabilité en répliquant les données sur plusieurs hôtes et ne nécessite donc pas de stockage _________ sur les hôtes.

A ZFS

B RAID

C Niveaux RAID standard

D Système d’exploitation

B
Avec la valeur de réplication par défaut, 3, les données sont stockées sur trois nœuds : deux sur le même rack et un sur un rack différent.

 

 
 

7. Au-dessus des systèmes de fichiers se trouve le moteur __________, qui consiste en un traqueur de tâches, auquel les applications clientes soumettent des tâches MapReduce.

A Facebook

B Google

C MapReduce

D Programmation fonctionnelle

C
Le moteur MapReduce est utilisé pour distribuer les tâches au sein d’un cluster.

 

 

8. La liste Hadoop comprend la base de données HBase, le système Apache Mahout __________ et les opérations matricielles.

A Intelligence artificielle

B Machine learning

C Classification statistique

D Reconnaissance des formes

B
Apache Mahout fait partie de l’écosystème Hadoop et est utilisé pour le machine learning distribué, comme la classification, la régression et le clustering.

 

 

9. _____ est une plateforme permettant de construire des flux de données pour le traitement et l’analyse de grands ensembles de données par extraction, transformation et chargement (ETL).

A Hadoop

B Pig

C Hive

D Oozie

B
Apache Pig est une plateforme de haut niveau utilisée pour créer des flux de données ETL (Extraction, Transformation, Chargement) dans l’écosystème Hadoop. Il utilise un langage appelé Pig Latin pour traiter et analyser de grands ensembles de données.

 

 
 

10. Indiquez l’affirmation correcte:

A Hive n’est pas une base de données relationnelle, mais un moteur de requête qui prend en charge les parties du langage SQL spécifiques à l’interrogation des données.

B Hive est une base de données relationnelle avec support SQL

C Pig est une base de données relationnelle avec un support SQL

D Toutes les réponses sont vraies

A
Ce n’est pas une base de données relationnelle. C’est un moteur de requête construit sur Hadoop qui permet d’écrire des requêtes similaires au SQL (appelé HiveQL) pour interroger des données stockées dans HDFS.

 

 

Une réflexion sur “QCM sur Big Data corrigé – Hadoop, Spark, Hive, HDFS – Partie 1

  • mai 28, 2024 à 7:56 pm
    Permalien

    s’était pas mal intéressant encore !

    Répondre

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *