歡迎來到Linux教程網

設為首頁加入收藏

Linux教程網

Linux教程網

Linux教程網

首頁 Linux基礎 Linux管理 Linux編程 Linux綜合 Unix知識

您现在的位置： Linux教程網 >> UnixLinux > >> Linux綜合 >> 學習Linux

Hadoop集群中Hbase的介紹、安裝、使用

Hadoop集群中Hbase的介紹、安裝、使用

Hadoop集群中Hbase的介紹、安裝、使用

導讀HBase – Hadoop Database，是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統，利用HBase技術可在廉價PC Server上搭建起大規模結構化存儲集群。一、Hbase簡介
HBase是Google Bigtable的開源實現，類似Google Bigtable利用GFS作為其文件存儲系統，HBase利用Hadoop HDFS作為其文件存儲系統；Google運行MapReduce來處理Bigtable中的海量數據，HBase同樣利用Hadoop MapReduce來處理HBase中的海量數據；Google Bigtable利用Chubby作為協同服務，HBase利用Zookeeper作為對應。
上圖描述了Hadoop EcoSystem中的各層系統，其中HBase位於結構化存儲層，Hadoop HDFS為HBase提供了高可靠性的底層存儲支持，Hadoop MapReduce為HBase提供了高性能的計算能力，Zookeeper為HBase提供了穩定服務和failover機制。
此外，Pig和Hive還為HBase提供了高層語言支持，使得在HBase上進行數據統計處理變的非常簡單。 Sqoop則為HBase提供了方便的RDBMS數據導入功能，使得傳統數據庫數據向HBase中遷移變的非常方便。
HBase訪問接口
Native Java API，最常規和高效的訪問方式，適合Hadoop MapReduce Job並行批處理HBase表數據
HBase Shell，HBase的命令行工具，最簡單的接口，適合HBase管理使用
Thrift Gateway，利用Thrift序列化技術，支持C++，PHP，Python等多種語言，適合其他異構系統在線訪問HBase表數據
REST Gateway，支持REST 風格的Http API訪問HBase, 解除了語言限制
Pig，可以使用Pig Latin流式編程語言來操作HBase中的數據，和Hive類似，本質最終也是編譯成MapReduce Job來處理HBase表數據，適合做數據統計
Hive，當前Hive的Release版本尚沒有加入對HBase的支持，但在下一個版本Hive 0.7.0中將會支持HBase，可以使用類似SQL語言來訪問HBase
HBase數據模型
1、Table & Column Family
Ø Row Key: 行鍵，Table的主鍵，Table中的記錄按照Row Key排序
Ø Timestamp: 時間戳，每次數據操作對應的時間戳，可以看作是數據的version number
Ø Column Family：列簇，Table在水平方向有一個或者多個Column Family組成，一個Column Family中可以由任意多個Column組成，即Column Family支持動態擴展，無需預先定義Column的數量以及類型，所有Column均以二進制格式存儲，用戶需要自行進行類型轉換。
2、Table & Region
當Table隨著記錄數不斷增加而變大後，會逐漸分裂成多份splits，成為regions，一個region由[startkey,endkey)表示，不同的region會被Master分配給相應的RegionServer進行管理：
3、-ROOT- && .META. Table
HBase中有兩張特殊的Table，-ROOT-和.META.
Ø .META.：記錄了用戶表的Region信息，.META.可以有多個regoin
Ø -ROOT-：記錄了.META.表的Region信息，-ROOT-只有一個region
Ø Zookeeper中記錄了-ROOT-表的location
Client訪問用戶數據之前需要首先訪問zookeeper，然後訪問-ROOT-表，接著訪問.META.表，最後才能找到用戶數據的位置去訪問，中間需要多次網絡操作，不過client端會做cache緩存。
MapReduce on HBase
在HBase系統上運行批處理運算，最方便和實用的模型依然是MapReduce，如下圖：
HBase Table和Region的關系，比較類似HDFS File和Block的關系，HBase提供了配套的TableInputFormat和TableOutputFormat API，可以方便的將HBase Table作為Hadoop MapReduce的Source和Sink，對於MapReduce Job應用開發人員來說，基本不需要關注HBase系統自身的細節。
二、HBase系統架構
Client
HBase Client使用HBase的RPC機制與HMaster和HRegionServer進行通信，對於管理類操作，Client與HMaster進行RPC；對於數據讀寫類操作，Client與HRegionServer進行RPC
Zookeeper
Zookeeper Quorum中除了存儲了-ROOT-表的地址和HMaster的地址，HRegionServer也會把自己以Ephemeral方式注冊到 Zookeeper中，使得HMaster可以隨時感知到各個HRegionServer的健康狀態。此外，Zookeeper也避免了HMaster的單點問題，見下文描述
HMaster
HMaster沒有單點問題，HBase中可以啟動多個HMaster，通過Zookeeper的Master Election機制保證總有一個Master運行，HMaster在功能上主要負責Table和Region的管理工作：
管理用戶對Table的增、刪、改、查操作
管理HRegionServer的負載均衡，調整Region分布
在Region Split後，負責新Region的分配
在HRegionServer停機後，負責失效HRegionServer 上的Regions遷移
HRegionServer
HRegionServer主要負責響應用戶I/O請求，向HDFS文件系統中讀寫數據，是HBase中最核心的模塊。
HRegionServer內部管理了一系列HRegion對象，每個HRegion對應了Table中的一個Region，HRegion中由多個HStore組成。每個HStore對應了Table中的一個Column Family的存儲，可以看出每個Column Family其實就是一個集中的存儲單元，因此最好將具備共同IO特性的column放在一個Column Family中，這樣最高效。
HStore存儲是HBase存儲的核心了，其中由兩部分組成，一部分是MemStore，一部分是StoreFiles。MemStore是 Sorted Memory Buffer，用戶寫入的數據首先會放入MemStore，當MemStore滿了以後會Flush成一個StoreFile（底層實現是HFile），當StoreFile文件數量增長到一定阈值，會觸發Compact合並操作，將多個StoreFiles合並成一個StoreFile，合並過程中會進行版本合並和數據刪除，因此可以看出HBase其實只有增加數據，所有的更新和刪除操作都是在後續的compact過程中進行的，這使得用戶的寫操作只要進入內存中就可以立即返回，保證了HBase I/O的高性能。
當StoreFiles Compact後，會逐步形成越來越大的StoreFile，當單個StoreFile大小超過一定阈值後，會觸發Split操作，同時把當前 Region Split成2個Region，父Region會下線，新Split出的2個孩子Region會被HMaster分配到相應的HRegionServer 上，使得原先1個Region的壓力得以分流到2個Region上。下圖描述了Compaction和Split的過程：
在理解了上述HStore的基本原理後，還必須了解一下HLog的功能，因為上述的HStore在系統正常工作的前提下是沒有問題的，但是在分布式系統環境中，無法避免系統出錯或者宕機，因此一旦HRegionServer意外退出，MemStore中的內存數據將會丟失，這就需要引入HLog了。每個HRegionServer中都有一個HLog對象，HLog是一個實現Write Ahead Log的類，在每次用戶操作寫入MemStore的同時，也會寫一份數據到HLog文件中（HLog文件格式見後續），HLog文件定期會滾動出新的，並刪除舊的文件（已持久化到StoreFile中的數據）。當HRegionServer意外終止後，HMaster會通過Zookeeper感知到，HMaster首先會處理遺留的 HLog文件，將其中不同Region的Log數據進行拆分，分別放到相應region的目錄下，然後再將失效的region重新分配，領取到這些region的HRegionServer在Load Region的過程中，會發現有歷史HLog需要處理，因此會Replay HLog中的數據到MemStore中，然後flush到StoreFiles，完成數據恢復。
HBase存儲格式
HBase中的所有數據文件都存儲在Hadoop HDFS文件系統上，主要包括上述提出的兩種文件類型：
HFile， HBase中KeyValue數據的存儲格式，HFile是Hadoop的二進制格式文件，實際上StoreFile就是對HFile做了輕量級包裝，即StoreFile底層就是HFile
HLog File，HBase中WAL（Write Ahead Log）的存儲格式，物理上是Hadoop的Sequence File
HFile
下圖是HFile的存儲格式：
首先HFile文件是不定長的，長度固定的只有其中的兩塊：Trailer和FileInfo。正如圖中所示的，Trailer中有指針指向其他數據塊的起始點。File Info中記錄了文件的一些Meta信息，例如：AVG_KEY_LEN, AVG_VALUE_LEN, LAST_KEY, COMPARATOR, MAX_SEQ_ID_KEY等。Data Index和Meta Index塊記錄了每個Data塊和Meta塊的起始點。
Data Block是HBase I/O的基本單元，為了提高效率，HRegionServer中有基於LRU的Block Cache機制。每個Data塊的大小可以在創建一個Table的時候通過參數指定，大號的Block有利於順序Scan，小號Block利於隨機查詢。每個Data塊除了開頭的Magic以外就是一個個KeyValue對拼接而成, Magic內容就是一些隨機數字，目的是防止數據損壞。後面會詳細介紹每個KeyValue對的內部構造。
HFile裡面的每個KeyValue對就是一個簡單的byte數組。但是這個byte數組裡面包含了很多項，並且有固定的結構。我們來看看裡面的具體結構：
開始是兩個固定長度的數值，分別表示Key的長度和Value的長度。緊接著是Key，開始是固定長度的數值，表示RowKey的長度，緊接著是 RowKey，然後是固定長度的數值，表示Family的長度，然後是Family，接著是Qualifier，然後是兩個固定長度的數值，表示Time Stamp和Key Type（Put/Delete）。Value部分沒有這麼復雜的結構，就是純粹的二進制數據了。
HLogFile
上圖中示意了HLog文件的結構，其實HLog文件就是一個普通的Hadoop Sequence File，Sequence File 的Key是HLogKey對象，HLogKey中記錄了寫入數據的歸屬信息，除了table和region名字外，同時還包括sequence number和timestamp，timestamp是“寫入時間”，sequence number的起始值為0，或者是最近一次存入文件系統中sequence number。
HLog Sequece File的Value是HBase的KeyValue對象，即對應HFile中的KeyValue，可參見上文描述。
三、Hbase安裝
1、Hbase版本選擇
挑選一個Apache Download Mirror（Apache下載鏡像），下載一個Hbase的穩定發布版本，解壓如下：
tar zxvf hbase-1.0.3-bin.tar.gz -C /home/hadoop/
設置Hbase環境變量
# hbase envexport HBASE_HOME=/home/hadoop/hbaseexport PATH=$PATH:$HBASE_HOME/bin
#獲取Hbase選項列表及版本信息
hbase version
2、測試驅動
#啟動一個使用本地文件系統/tmp目錄作為持久化存儲的Hbase臨時實例
start-hbase.shstarting master, logging to /home/hadoop/hbase/logs/hbase-root-master-linux-node1.out
#新建一個名為test的表，使其只包含一個名為data的列，表和列族屬性都為默認值
hbase(main):001:0> create 'test','data'0 row(s) in 0.4150 seconds
#通過鍵入help查看幫助命令，運行list查看新建的表是否存在
hbase(main):003:0> listTABLEtest1 row(s) in 0.0230 seconds
#在列族data中二個不同的行和列上插入數據，然後列出表內容
hbase(main):004:0> put 'test','row1','data:1','values1'0 row(s) in 0.1280 secondshbase(main):005:0> put 'test','row2','data:2','values2'0 row(s) in 0.0090 secondshbase(main):006:0> scan 'test'ROW COLUMN+CELLrow1 column=data:1, timestamp=1473585137461, value=values1row2 column=data:2, timestamp=1473585158072, value=values22 row(s) in 0.0200 seconds
#刪除剛創建的表test，需要先設為禁用，然後刪除，不設置會報錯：
ERROR: Table test is enabled. Disable it first.hbase(main):009:0> disable 'test'0 row(s) in 1.1800 secondshbase(main):010:0> drop 'test'0 row(s) in 0.1570 seconds
本文原創地址：http://www.linuxprobe.com/hadoop-hbase-deploy-use.html ‎

http://xxxxxx/Linuxjc/1184697.html TechArticle

上一篇文章：實戰CentOS系統部署Hadoop集群服務
下一篇文章：最牛X的GCC 內聯匯編

學習Linux

KDE 2.1安裝及使用介紹

linux下git的安裝和使用介紹

[Hadoop]如何安裝Hadoop

hadoop偽分布式的安裝搭建(Hadoop

Hadoop集群中Hbase的介紹、安裝、使用

Hadoop：Hadoop單機偽分布式的安裝和配置

Hadoop學習教程(三) ---- Hadoop安裝

KDE2.1安裝及使用介紹

相關文章

Hadoop學習教程(三) ---- Hadoop安裝

編譯安裝方式部署Hadoop 2.x集群

Linux集群原理與安裝配置介紹

Linux集群原理與安裝配置介紹

Linux中安裝配置hadoop集群

[Hadoop] 第一篇 Hadoop 安裝步驟

CentOS6使用YUM安裝Postgresql9.4

centos7安裝redis3.2.5集群

CentOS 7 安裝Hadoop 2.7.1

Hadoop學習教程(一) ---- 使用VMware安裝CentOS

CentOS6.5下安裝Hbase

CentOS7 安裝使用pypy5

Linux軟件

Linux桌面

Linux內核

Linux嵌入式

Linux安裝

Linux命令

Ubuntu Linux

Red hat Linux

Linux資訊

紅旗Linux

學習Linux

Copyright © Linux教程網 All Rights Reserved