由於機器學習算法在處理大數據處理的時候在所難免的會效率降低,公司需要搭建hadoop集群,最後采用了商業版的Hadoop2(MapR)。
官網: http://doc.mapr.com/display/MapR/Installing+MapR+Software
一 前期有一些集群的准備工作: 請參考本人前幾篇集群搭建的總結文檔 及 官方文檔http://doc.mapr.com/display/MapR/Preparing+Each+Node
二 搭建MapR 1 創建本地倉庫 1)root用戶登陸,擁有最高權限
2)創建以下目錄結構
~/mapr
.
├── dists
│ └── binary
│ └── optional
│ └── binary-amd64
└── mapr
3)下載兩個文件到本地,url:注意替換相應的版本號: 本人使用的 v5.0.0
http://package.mapr.com/releases/v<version>/ubuntu/mapr-v<version>GA.deb.tgz' target='_blank'>http://package.mapr.com/releases/ecosystem-5.x/ubuntu/mapr-ecosystem-5.x-<datestamp>.deb.tgz[/code]
文件共7G,比較大,網速好的時候下。並解壓文件。
4)進入路徑/root/mapr/
, 並創建文件 Packages.gz
dpkg-scanpackages . /dev/null | gzip -9c > ./dists/binary/optional/binary-amd64/Packages.gz
5)把路徑 /root/mapr
下的所有文件移動到路徑 /var/www/html
下。為了方便 Apache HTTP Server 發布。
2 安裝 Apache HTTP Server
[code]sudo apt-get apache2
驗證安裝成功:浏覽器http://127.0.0.1 顯示歡迎頁面
注意:apache 發布的文件默認路徑在 /var/www/html
3 配置apt命令
1)配置文件/etc/apt/sources.list,增加下面的一行:
debhttp://<host>/mapr binary optional
eg
debhttp://apm/mapr binary optional
本人的hostname是apm,在hostname表中配置,並且綁定靜態ip,這些都是准備工作,可以查看本人前幾篇文。
2)更新sources.list
文件:
apt-get update
4 安裝mapr包的key:
wget -O -http://package.mapr.com/releases/pub/maprgpg.key | sudo apt-key add -
5 安裝mapr的子模塊:
apt-get install <package_name> <package_name> <package_name>
具體例:eq 安裝mapr-fileserver mapr-tasktracker兩個模塊
apt-get install mapr-fileserver mapr-tasktracker
對應的安裝自己需要的模塊即可。
自動在本地下載這些依賴。
6 查看安裝成功否
# ls -l /opt/mapr/roles
total 0
-rwxr-xr-x 1 root root 0 Aug 29 17:59 fileserver
-rwxr-xr-x 1 root root 0 Aug 29 17:58 tasktracker
-rwxr-xr-x 1 root root 0 Aug 29 17:58 webserver
-rwxr-xr-x 1 root root 0 Aug 29 17:58 zookeeper
說明 fileserver tasktracker webserver zookeeper 四個模塊已經成功安裝。
設置環境變量略,mapr的根目錄在 /opt/mapr
插曲:開始本人使用聯網下載方式安裝這些模塊,結果公司網絡代理部給力,所以采用了本地的模式安裝這個倉庫。
若你也是這樣,那一定要清空cache裡的緩存,否則apt-get 的時候不會成功。
附錄:各模塊表,只參考YARN那一列 即可: