QCM sur Big Data corrigé – Hadoop – Partie 1

Questions d’Entretien sur Big Data avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur Big Data comprennent divers sujets tel que les principes de base du Big Data, Hadoop, l’écosystème et ses composants, l’analyse, Hypervisor, etc… Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur Big Data.
 
 

1. Indiquez l’affirmation correcte.

A Hadoop est un environnement idéal pour extraire et transformer de petits volumes de données.

B Hadoop stocke les données dans HDFS et prend en charge la compression/décompression des données.

C Le framework Giraph est moins utile qu’une tâche MapReduce pour résoudre les problèmes de graphes et d’apprentissage automatique.

D Aucune de ces réponses

B
La compression des données peut être réalisée à l’aide d’algorithmes de compression comme bzip2, gzip, LZO, etc. Différents algorithmes peuvent être utilisés dans différents scénarios en fonction de leurs capacités.

 

 

2. Sous quelle licence Hadoop est-il distribué ?

A Licence Apache 2.0

B Mozilla Public License

C Shareware

D Commerciale

A
Hadoop est un logiciel libre, publié sous la licence Apache 2.

 

 

3. En quel langage Hadoop a-t-il été écrit ?

A Python

B Java

C Perl

D C++

B
La structure Hadoop elle-même est principalement écrite dans le langage de programmation Java, avec un peu de code natif en C et des utilitaires de ligne de commande écrits sous forme de scripts shell.

 

 
 

4. Lequel des éléments suivants est produit par Hadoop ?

A Système de fichiers distribués

B Service de messages Java

C JAX-RS

D Système de gestion de bases de données relationnelles

A
Le système de fichiers distribués Hadoop (HDFS) est conçu pour stocker de manière fiable de très grands ensembles de données et pour transmettre ces ensembles de données à l’utilisateur sur une large bande passante.

 

 

5. Sur laquelle des plateformes suivantes Hadoop fonctionne-t-il ?

A Debian

B Unix

C Multiplateformes

D Android

C
Hadoop prend en charge les systèmes d’exploitation multiplateformes.

 

 

6. Hadoop atteint la fiabilité en répliquant les données sur plusieurs hôtes et ne nécessite donc pas de stockage _________ sur les hôtes.

A ZFS

B RAID

C Niveaux RAID standard

D Système d’exploitation

B
Avec la valeur de réplication par défaut, 3, les données sont stockées sur trois nœuds : deux sur le même rack et un sur un rack différent.

 

 
 

7. Au-dessus des systèmes de fichiers se trouve le moteur __________, qui consiste en un traqueur de tâches, auquel les applications clientes soumettent des tâches MapReduce.

A Facebook

B Google

C MapReduce

D Programmation fonctionnelle

C
Le moteur MapReduce est utilisé pour distribuer les tâches au sein d’un cluster.

 

 

8. La liste Hadoop comprend la base de données HBase, le système Apache Mahout __________ et les opérations matricielles.

A Intelligence artificielle

B Machine learning

C Classification statistique

D Reconnaissance des formes

B
L’objectif du projet Apache Mahout est de construire un outil de Machine learning évolutif.

 

 

9. _____ est une plateforme permettant de construire des flux de données pour le traitement et l’analyse de grands ensembles de données par extraction, transformation et chargement (ETL).

A Hadoop

B Pig

C Hive

D Oozie

B
Apache Pig est une plateforme d’analyse de grands ensembles de données qui consiste en un langage de haut niveau pour l’expression de programmes d’analyse de données.

 

 
 

10. Indiquez l’affirmation correcte:

A Hive n’est pas une base de données relationnelle, mais un moteur de requête qui prend en charge les parties du langage SQL spécifiques à l’interrogation des données.

B Hive est une base de données relationnelle avec support SQL

C Pig est une base de données relationnelle avec un support SQL

D Toutes les réponses sont vraies

A
Hive est un système d’entrepôt de données basé sur SQL pour Hadoop qui facilite le résumé des données, les requêtes ad hoc et l’analyse de grands ensembles de données stockés dans des systèmes de fichiers compatibles avec Hadoop.

 

 

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.