Hadoop的安裝非常簡單,大家可以在官網上下載到最近的幾個版本,網址為http://apache.etoak.com/hadoop/core/。
Hadoop最早是為了在Linux平台上使用而開發的,但是Hadoop在UNIX、Windows和Mac OS X系統上也運行良好。不過,在Windows上運行Hadoop稍顯復雜,首先必須安裝Cygwin以模擬Linux環境,然後才能安裝Hadoop。
在Unix上安裝Hadoop的過程與在Linux上安裝基本相同,因此下面不會對其進行詳細介紹。
在Linux上安裝與配置Hadoop
在Linux上安裝Hadoop之前,需要先安裝兩個程序:
1. JDK 1.6或更高版本;
2. SSH(安全外殼協議),推薦安裝OpenSSH。
下面簡述一下安裝這兩個程序的原因:
1. Hadoop是用Java開發的,Hadoop的編譯及MapReduce的運行都需要使用JDK。
2. Hadoop需要通過SSH來啟動salve列表中各台主機的守護進程,因此SSH也是必須安裝的,即使是安裝偽分布式版本(因為Hadoop並沒有區分集群式和偽分布式)。對於偽分布式,Hadoop會采用與集群相同的處理方式,即依次序啟動文件conf/slaves中記載的主機上的進程,只不過偽分布式中salve為localhost(即為自身),所以對於偽分布式Hadoop,SSH一樣是必須的。
一、安裝JDK 1.6
安裝JDK的過程很簡單,下面以Ubuntu為例。
(1)下載和安裝JDK
確保可以連接到互聯網,輸入命令:
sudo apt-get install sun-java6-jdk輸入密碼,確認,然後就可以安裝JDK了。
這裡先解釋一下sudo與apt這兩個命令,sudo這個命令允許普通用戶執行某些或全部需要root權限命令,它提供了詳盡的日志,可以記錄下每個用戶使用這個命令做了些什麼操作;同時sudo也提供了靈活的管理方式,可以限制用戶使用命令。sudo的配置文件為/etc/sudoers。
apt的全稱為the Advanced Packaging Tool,是Debian計劃的一部分,是Ubuntu的軟件包管理軟件,通過apt安裝軟件無須考慮軟件的依賴關系,可以直接安裝所需要的軟件,apt會自動下載有依賴關系的包,並按順序安裝,在Ubuntu中安裝有apt的一個圖形化界面程序synaptic(中文譯名為“新立得”),大家如果有興趣也可以使用這個程序來安裝所需要的軟件。(如果大家想了解更多,可以查看一下關於Debian計劃的資料。)
(2)配置環境變量
輸入命令:
sudo gedit /etc/profile輸入密碼,打開profile文件。
在文件的最下面輸入如下內容:
#set Java Environment這一步的意義是配置環境變量,使你的系統可以找到JDK。
(3)驗證JDK是否安裝成功
輸入命令:
java -version查看信息:
java version "1.6.0_14"