Hadoop YARN 安裝

Hadoop 2.X的配置教程不多,這裏有一篇很好的guide

這裏大概摘了幾個要點:

Hadoop之前幾乎是MapReduce計算模型的代名詞。而從2.X起,Hadoop致力於發展成在集羣之上的一個抽象層,在這個抽象層之上可以運行不限於MapReduce的計算,比如用於圖處理的Giraph和用於一般的基於內存的計算的Spark。實現這種分離的關鍵在於YARN(Yet Another Resource Manager)。顧名思義,這是一個資源管理器,爲taksk的運行分配容器(container),負責tasks的調度,必要時從HDFS獲取數據。類似於HDFS由一個NameNode和多個DataNode構成,YARN主要由一個資源管理器和多個節點管理器組成。前者負責跟蹤集羣資源的使用情況;後者運行於每一個需要與ResourceManager通信的節點,負責容器的創建。因此,2.X開始的Hadoop可以視爲由HDFS和YARN連個組件構成。原來的MapReduce模型仍然可用,只是在YARN上的實現叫做“MapReducev2”。

需要注意的是,配置過程中我們可能會發現一個node的address or port 會有兩個。通常,其中一個端口會是IPC端口用於進程間通訊,而另一個是web管理接口(如果有的話)。

点赞