Questions d’Entretien sur Big Data avec des réponses pour la préparation des entretiens d’embauche, tests en ligne, examens et certifications. Ces questions et réponses sur Big Data comprennent divers sujets tel que les principes de base du Big Data, Hadoop, l’écosystème et ses composants, l’analyse, Hypervisor, etc… Et sont tirés d’un vrai entretien écrit et certaines parties sont en direct. Cette méthode d’apprentissage systématique préparera facilement toute personne pour réussir son test sur Big Data.
1. À quoi sert le fichier mapred-site.xml ?
A À définir les règles de réplication HDFS
B À configurer les paramètres MapReduce (nombre de tasks, mémoire, etc.)
C À stocker les résultats des jobs
D À lancer les nœuds du cluster
B
Le fichier mapred-site.xml contient des paramètres liés à l’exécution des jobs MapReduce, comme le nombre de reducers (mapreduce.job.reduces), la compression, la mémoire allouée, etc.
2. Dans le modèle MapReduce, que fait le partitioner ?
A Il trie les données par valeur
B Il répartit les paires (clé, valeur) entre les reducers
C Il groupe les clés identiques
D Il crée les splits d’entrée
B
Le partitioner détermine quel Reducer va traiter une clé donnée, souvent en utilisant un hash sur la clé: hash(key) % numReduceTasks
3. Quelle commande est équivalente à hadoop fs -ls / mais en utilisant le shell HDFS natif ?
Ahdfs shell -ls /
Bhdfs dfs -ls /
Chdfs hadoop -ls /
Dhadoop dfs -hdfs /
B
hdfs dfs est synonyme de hadoop fs (depuis Hadoop 2.x), et peut être utilisé pour exécuter les mêmes commandes sur le HDFS. Les deux sont valides, mais hdfs dfs est recommandé dans les nouvelles versions.
4. Quelle est l’unité minimale de stockage dans HDFS ?
A Le fichier
B Le répertoire
C Le bloc
D La ligne
C
HDFS découpe les fichiers en blocs (128 Mo par défaut). Ces blocs sont les unités de base du stockage distribué. Ils sont répliqués sur plusieurs DataNodes.
5. Quelle option est la plus adaptée pour du traitement batch en Hadoop ?
A Apache Kafka
B Apache Flume
C Apache MapReduce
D Apache Storm
C
MapReduce est conçu pour le traitement batch de grandes quantités de données (traitement en lots). Kafka et Flume gèrent les flux de données, Storm fait du streaming.
6. Qu’est-ce que « Hadoop Monitoring » et quels outils sont couramment utilisés pour cela ?
A Le processus de sauvegarde et de restauration des données dans HDFS.
B L’allocation dynamique des ressources YARN.
C La configuration de la sécurité du cluster.
D La surveillance de l’état des différents composants d’un cluster Hadoop (NameNode, DataNodes, ResourceManager, NodeManagers, services, etc.).
D
Le Hadoop Monitoring est crucial pour assurer la stabilité, la performance et la disponibilité d’un cluster Hadoop. Des outils de monitoring permettent de suivre les métriques clés, de détecter les problèmes potentiels et de prendre des mesures correctives rapidement.
7. Qu’est-ce que « Hadoop Compression » et quels codecs de compression sont couramment utilisés ?
A La réduction de la taille des fichiers stockés dans HDFS. Des codecs comme Gzip, LZO, Snappy, et Bzip2 sont couramment utilisés.
B Le processus de combinaison de plusieurs petits fichiers en des fichiers plus grands dans HDFS. Des codecs comme h264, et MPEG2 sont couramment utilisés.
C Le chiffrement des données au repos dans HDFS.
D La mise en cache des données en mémoire pour un accès plus rapide.
A
La Hadoop Compression permet de réduire la taille des données stockées et traitées par Hadoop, ce qui peut entraîner des économies d’espace disque, une réduction du trafic réseau et une amélioration des performances des tâches MapReduce (car moins de données doivent être lues et écrites sur disque). Différents codecs offrent différents compromis entre le taux de compression et la vitesse de compression/décompression.
8. Quelle commande Hive permet de voir la structure d’une table ?
ASHOW TABLE STRUCTURE ma_table
BDESCRIBE ma_table
CSELECT STRUCTURE FROM ma_table
DEXPLAIN ma_table
B
Avec DESCRIBE, tu peux voir les colonnes, types de données et infos de table dans Hive. Tu peux aussi faire DESCRIBE EXTENDED pour plus de détails (format, emplacement HDFS, etc.)
9. Qu’est-ce que « Hadoop Archival » ou « Data Archiving » dans le contexte de Hadoop ?
A La suppression définitive des données obsolètes du cluster.
B La compression maximale des données pour un stockage à long terme.
C Le déplacement des données moins fréquemment vers un stockage moins coûteux
D La création de sauvegardes régulières de toutes les données du cluster.
C
L’Hadoop Archival consiste à gérer le cycle de vie des données en déplaçant les données qui ne sont plus activement utilisées vers des solutions de stockage moins coûteuses. Cela peut impliquer l’utilisation de différentes classes de stockage dans HDFS (avec des coûts et des performances différents) ou l’archivage vers des systèmes externes.
10. En MapReduce, quelle méthode est appelée pour chaque paire (clé, valeur) en entrée d’un Reducer ?
Arun()
Breduce()
Cexecute()
Dprocess()
B
La méthode reduce(KEY, Iterable<VALUE>, Context) est invoquée une fois par clé avec toutes ses valeurs associées. C’est là que s’effectue l’agrégation finale.