mapreduce在hadoop中的作用是什么 Hadoop生態系統及各模塊的功能？

2023-04-09

4155

Hadoop生態系統及各模塊的功能？1.HDFS(Hadoop分布式文件系統)HDFS是一個在Hadoop生態中提供分布式存儲支持的系統，很多上層計算框架(Hbase，Spark等。)依靠HDFS存儲

Hadoop生態系統及各模塊的功能？

1.HDFS(Hadoop分布式文件系統)

HDFS是一個在Hadoop生態中提供分布式存儲支持的系統，很多上層計算框架(Hbase，Spark等。)依靠HDFS存儲。

(分布式計算模型)離線計算

什么是離線計算，其實就是非實時計算。

3.分布式資源管理器

紗線與紡織品。;的出現主要是為了解決原有Hadoop擴展性差，不支持多種計算模式的問題。

4.存儲計算

Spark在內存中提供分布式計算能力，比傳統的MapReduce大數據分析更高效、更快速。

5.分布式列存儲數據庫

Hbase繼承了列存儲的特點，非常適合數據的隨機讀寫。其次，Hbase建立在HDFS之上，它內部管理的所有文件都存儲在HDFS。這使得它具有高度的容錯性和可擴展性，并支持Hadoop mapreduce編程模型。

6.數據倉庫

7.Oozie(工作流調度程序)

Oozie是一個基于工作流引擎的調度器，它實際上是一個運行在Java Servlet容器(如Tomcat)中的JavaWeb應用程序，在其上可以運行諸如Hadoop 地圖縮小和豬。

8.Sqoop和Pig

9.Flume(日志收集工具)

Flume將數據從產生、傳輸、處理到最終寫入目標路徑的過程抽象成數據流。在具體的數據流中，數據源支持在Flume中定制數據發送方，從而支持不同協議的數據采集。

10.Kafka(分布式消息隊列)

Kafka是Apach

Hadoop生態系統:

1.HDFS: Hadoop分布式文件系統，用來解決機器組存儲數據的問題。

第一代Hadoop計算引擎分為兩步:map和reduce。很好用，但是很繁瑣。

3.spark:第二代計算引擎，模糊了map和reduce之間的界限，需要更少的磁盤讀寫。

4.pig:上面計算引擎的MapReduce程序很難寫。與匯編語言相比，pig的描述更接近腳本。

配置單元是用sql描述的。將sql語言翻譯成MapReduce程序。

6.Tez和spark:新一代計算引擎，可以滿足低速數據處理的要求。

:流式計算平臺。數據流和統計。

8.zookeeper:分布式訪問協作系統

9 .紗:中央管理調度系統