簡介: 本文結合具體代碼對 Linux 內核中的 device mapper 映射機制進行了介紹。Device mapper 是 Linux 2.6 內核中提供的一種從邏輯設備到物理設備的映射框架機制,在該機制下,用戶可以很方便的根據自己的需要制定實現存儲資源的管理策略,當前比較流行的 Linux 下的邏輯卷管理器如 LVM2(Linux Volume Manager 2 version)、EVMS(Enterprise Volume Management System)、dmraid(Device Mapper Raid Tool)等都是基於該機制實現的。理解該機制是進一步分析、理解這些卷管理器的實現及設計的基礎。通過本文也可以進一步理解 Linux 系統塊一級 IO的設計和實現。
Device Mapper 是 Linux2.6 內核中支持邏輯卷管理的通用設備映射機制,它為實現用於存儲資源管理的塊設備驅動提供了一個高度模塊化的內核架構,如圖 1。
在內核中它通過一個一個模塊化的 target driver 插件實現對 IO 請求的過濾或者重新定向等工作,當前已經實現的 target driver 插件包括軟 raid、軟加密、邏輯卷條帶、多路徑、鏡像、快照等,圖中 linear、mirror、snapshot、multipath 表示的就是這些 target driver。Device mapper 進一步體現了在 Linux 內核設計中策略和機制分離的原則,將所有與策略相關的工作放到用戶空間完成,內核中主要提供完成這些策略所需要的機制。Device mapper 用戶空間相關部分主要負責配置具體的策略和控制邏輯,比如邏輯設備和哪些物理設備建立映射,怎麼建立這些映射關系等等,而具體過濾和重定向 IO 請求的工作由內核中相關代碼完成。因此整個 device mapper 機制由兩部分組成--內核空間的 device mapper 驅動、用戶空間的device mapper 庫以及它提供的 dmsetup 工具。在下文中,我們分內核和用戶空間兩部分進行介紹。
內核部分
Device mapper 的內核相關代碼已經作為 Linux 2.6 內核發布版的一部分集成到內核源碼中了,相關代碼在內核源碼的 driver/md/ 目錄中,其代碼文件可以劃分為實現 device mapper 內核中基本架構的文件和實現具體映射工作的 target driver 插件文件兩部分。文章下面的分析結果主要是基於上述源碼文件得到的。
重要概念
Device mapper 在內核中作為一個塊設備驅動被注冊的,它包含三個重要的對象概念,mapped device、映射表、target device。Mapped device 是一個邏輯抽象,可以理解成為內核向外提供的邏輯設備,它通過映射表描述的映射關系和 target device 建立映射。從 Mapped device 到一個 target device 的映射表由一個多元組表示,該多元組由表示 mapped device 邏輯的起始地址、范圍、和表示在 target device 所在物理設備的地址偏移量以及target 類型等變量組成(這些地址和偏移量都是以磁盤的扇區為單位的,即 512 個字節大小)。Target device 表示的是 mapped device 所映射的物理空間段,對 mapped device 所表示的邏輯設備來說,就是該邏輯設備映射到的一個物理設備。Device mapper 中這三個對象和 target driver 插件一起構成了一個可迭代的設備樹。在該樹型結構中的頂層根節點是最終作為邏輯設備向外提供的 mapped device,葉子節點是 target device 所表示的底層物理設備。最小的設備樹由單個 mapped device 和 target device 組成。每個 target device 都是被mapped device 獨占的,只能被一個 mapped device 使用。一個 mapped device 可以映射到一個或者多個 target device 上,而一個 mapped device 又可以作為它上層 mapped device的 target device 被使用,該層次在理論上可以在 device mapper 架構下無限迭代下去。
在圖2 中我們可以看到 mapped device1 通過映射表和 a、b、c 三個 target device 建立了映射關系,而 target device a 又是通過 mapped device 2 演化過來,mapped device 2 通過映射表和 target device d 建立映射關系。
我們進一步看一下上述三個對象在代碼中的具體實現,dm.c 文件定義的 mapped_device 結構用於表示 mapped device,它主要包括該 mapped device 相關的鎖,注冊的請求隊列和一些內存池以及指向它所對應映射表的指針等域。Mapped device 對應的映射表是由 dm_table.c 文件中定義的 dm_table 結構表示的,該結構中包含一個 dm_target結構數組,dm_target 結構具體描述了 mapped_device 到它某個 target device 的映射關系。而在 dm_table 結構中將這些 dm_target 按照 B 樹的方式組織起來方便 IO 請求映射時的查找操作。Dm_target 結構具體記錄該結構對應 target device 所映射的 mapped device 邏輯區域的開始地址和范圍,同時還包含指向具體 target device 相關操作的 target_type 結構的指針。Target_type 結構主要包含了 target device 對應的 target driver 插件的名字、定義的構建和刪除該類型target device的方法、該類target device對應的IO請求重映射和結束IO的方法等。而表示具體的target device的域是dm_target中的private域,該指針指向mapped device所映射的具體target device對應的結構。表示target device的具體結構由於不同的target 類型而不同,比如最簡單的線性映射target類型對應target device的結構是dm-linear.c文件中定義的linear_c結構。其定義如下:
struct linear_c { struct dm_dev *dev; sector_t start; };
該target device的定義相當簡單,就只包括了表示對應物理設備的dm_dev結構指針和在該物理設備中以扇區為單位的偏移地址start。上述幾個數據結構關系如圖3所示:
內核中建立過程
在下面我們結合具體的代碼簡要介紹下在內核中創建一個mapped device的過程:
1、 根據內核向用戶空間提供的ioctl 接口傳來的參數,用dm-ioctl.c文件中的dev_create函數創建相應的mapped device結構。這個過程很簡單,主要是向內核申請必要的內存資源,包括mapped device和為進行IO操作預申請的內存池,通過內核提供的blk_queue_make_request函數注冊該mapped device對應的請求隊列dm_request。並將該mapped device作為磁盤塊設備注冊到內核中。
2、 調用dm_hash_insert將創建好的mapped device插入到device mapper中的一個全局hash表中,該表中保存了內核中當前創建的所有mapped device。
3、 用戶空間命令通過ioctl調用table_load函數,該函數根據用戶空間傳來的參數構建指定mapped device的映射表和所映射的target device。該函數先構建相應的dm_table、dm_target結構,再調用dm-table.c中的dm_table_add_target函數根據用戶傳入的參數初始化這些結構,並且根據參數所指定的target類型,調用相應的target類型的構建函數ctr在內存中構建target device對應的結構,然後再根據所建立的dm_target結構更新dm_table中維護的B樹。上述過程完畢後,再將建立好的dm_table添加到mapped device的全局hash表對應的hash_cell結構中。
4、 最後通過ioctl調用do_resume函數建立mapped device和映射表之間的綁定關系,事實上該過程就是通過dm_swap_table函數將當前dm_table結構指針值賦予mapped_device相應的map域中,然後再修改mapped_device表示當前狀態的域。
通過上述的4個主要步驟,device mapper在內核中就建立一個可以提供給用戶使用的mapped device邏輯塊設備。
IO流
Device mapper本質功能就是根據映射關系和target driver描述的IO處理規則,將IO請求從邏輯設備mapped device轉發相應的target device上。Device mapper處理所有從內核中塊一級IO子系統的generic_make_request和submit_bio接口[兩個接口具體的描述可以查看參考文獻[1]和[2],這兩本書對內核中的塊IO層有比較詳盡的講解。] 中定向到mapped device的所有塊讀寫IO請求。IO請求在device mapper的設備樹中通過請求轉發從上到下地進行處理。當一個bio請求在設備樹中的mapped deivce向下層轉發時,一個或者多個bio的克隆被創建並發送給下層target device。然後相同的過程在設備樹的每一個層次上重復,只要設備樹足夠大理論上這種轉發過程可以無限進行下去。在設備樹上某個層次中,target driver結束某個bio請求後,將表示結束該bio請求的事件上報給它上層的mapped device,該過程在各個層次上進行直到該事件最終上傳到根mapped device的為止,然後device mapper結束根mapped device上原始bio請求,結束整個IO請求過程。
Bio在device mapper的設備樹進行逐層的轉發時,最終轉發到一個或多個葉子target節點終止。因為一個bio請求不可以跨多個target device(亦即物理空間段), 因此在每一個層次上,device mapper根據用戶預先告知的mapped device 的target映射信息克隆一個或者多個bio,將bio進行拆分後轉發到對應的target device上。這些克隆的bio先交給mapped device上對應的target driver上進行處理,根據target driver中定義的IO處理規則進行IO請求的過濾等處理,然後再提交給target device完成。上述過程在dm.c文件中的dm_request函數中完成。Target driver可以對這些bio做如下處理:
1、 將這些bio在本驅動內部排隊等待以後進行處理;
2、 將bio重新定向到一個或多個target device上或者每個target device上的不同扇區;
3、 向device mapper返回error 狀態。
IO請求就按照上文中描述的過程在圖2中所示的設備樹中逐層進行處理,直到IO請求結束。
小結
Device mapper在內核中向外提供了一個從邏輯設備到物理設備的映射架構,只要用戶在用戶空間制定好映射策略,按照自己的需要編寫處理具體IO請求的target driver插件,就可以很方便的實現一個類似LVM的邏輯卷管理器。Device mapper以ioctl的方式向外提供接口,用戶通過用戶空間的device mapper庫,向device mapper的字符設備發送ioctl命令,完成���內的通信。它還通過ioctl提供向往的事件通知機制,允許target driver將IO相關的某些事件傳送到用戶空間。