Linux 網卡驅動程序對 ethtool 的支持和實現
從典型的以太網控制器說起
網卡工作在 OSI 網絡體系的 最後兩層,物理層和數據鏈路層,物理層定義了數據傳送與接收所需要的電與光信號、線路狀態、時鐘基准、數據編碼和電 路等,並向數據鏈路層設備提供標准接口。物理層的芯片稱之為 PHY。數據鏈路層則提供尋址機構、數據幀的構建、數據差 錯檢查、傳送控制、向網絡層提供標准的數據接口等功能。以太網卡中數據鏈路層的芯片稱之為 MAC 控制器。很多網卡的 這兩個部分是做到一起的。他們之間的關系是 PCI 總線接 MAC 總線,MAC 接 PHY,PHY 接網線(當然也不是直接接上的, 還有一個變壓裝置)。
一般地,一個典型的以太網控制器的基本結構如圖 1 所示:
圖 1. 一個典型的符合 IEEE802.3 標准的的以太網控制器結構圖
數據鏈路層 MAC 是 Media Access Control 的縮寫,即媒體訪問控制子層協議。該協議位於 OSI 七 層協議中數據鏈路層的下半部分,主要負責控制與連接物理層的物理介質。在發送數據的時候,MAC 協議可以事先判斷是否 可以發送數據,如果可以發送將給數據加上一些控制信息,最終將數據以及控制信息以規定的格式發送到物理層;在接收數 據的時候,MAC 協議首先判斷輸入的信息並是否發生傳輸錯誤,如果沒有錯誤,則去掉控制信息發送至 LLC 層。以太網 MAC 由 IEEE-802.3 以太網標准定義。
物理層 PHY 是物理接口收發器,它實現物理層。包括 MII/GMII(介質獨立 接口)子層、PCS(物理編碼子層)、PMA(物理介質附加)子層、 PMD(物理介質相關)子層、MDI 子層。
MII 即 媒體獨立接口 , “媒體獨立”表明在不對 MAC 硬件重新設計或替換的情況下,任何類型的 PHY 設備都可以正常工作。包 括分別用於發送器和接收器的兩條獨立信道。每條信道都有自己的數據、時鐘和控制信號。MII 數據接口總共需要 16 個信 號,包括 TX_ER,TXD<3:0>,TX_EN,TX_CLK,COL,RXD<3:0>,RX_EX,RX_CLK,CRS,RX_DV 等。
RMII (Reduced Media Independant Interface ) 是簡化的 MII 接口 ,在數據的收發上它比 MII 接口少了一倍的 信號線,所以它一般要求是 50 兆的總線時鐘 。RMII 一般用在多端口的交換機,它不是每個端口安排收、發兩個時鐘,而 是所有的數據端口公用一個時鐘用於所有端口的收發 ,這裡就節省了不少的端口數目。RMII 的一個端口要求 7 個數據線 ,比 MII 少了一倍,所以交換機能夠接入多一倍數據的端口。和 MII 一樣,RMII 支持 10 兆和 100 兆的總線接口速度 。
GMII(Gigabit MII) 是千兆網的 MII 接口,這個也有相應的 RGMII 接口,表示簡化了的 GMII 接口。GMII 采用 8 位接口數據,工作時鐘 125MHz,因此傳輸速率可達 1000Mbps 。同時兼容 MII 所規定的 10/100 Mbps 工作方式。
MII 管理接口是個雙信號接口,一個是時鐘信號 MDC,另一個是數據信號 MDIO。通過管理接口,上層能監視和控 制 PHY 的寄存器。PHY 裡面的部分寄存器是 IEEE 定義的,這樣 PHY 把自己的目前的狀態反映到寄存器裡面,MAC 通過管 理接口不斷的讀取 PHY 的狀態寄存器以得知目前 PHY 的狀態,例如連接速度,雙工的能力等。當然也可以通過管理接口設 置 PHY 的寄存器達到控制的目的,例如流控的打開關閉,自協商模式還是強制模式等,這也是 ethtool 的工作原理。
MDIO/MDC,即 PHY 管理接口串行通信總線,該總線由 IEEE 通過以太網標准 IEEE 802.3 的若干條款加以定義。 MDIO 是一種簡單的雙線串行接口,將管理器件 ( 如 MAC 控制器、微處理器 ) 與具備管理功能的收發器 ( 如多端口吉比 特以太網收發器或 10GbE XAUI 收發器 ) 相連接,從而控制收發器並從收發器收集狀態信息。可收集的信息包括鏈接狀態 、傳輸速度與選擇、斷電、低功率休眠狀態、TX/RX 模式選擇、自動協商控制、環回模式控制等。除了擁有 IEEE 要求的功 能之外,收發器廠商還可添加更多的信息收集功能。
MDC 則是管理數據的時鐘輸入,最高速率可達 8.3MHz。MDIO 是管理數據的輸入輸出雙向接口,數據是與 MDC 時鐘同步的。MDIO 的工作流程為:
MDIO 接口在沒有傳輸 數據的空閒狀態(IDLE)數據線 MDIO 處於高阻態。
MDIO 出現一個 2bit 的開始標識碼 (01) 一個讀 / 寫操作開始。
MDIO 出現一個 2bit 數據來標識是讀操作 (10) 還是寫操作 (01)。
MDIO 出現一個 5bit 數據標識 PHY 的地址。
MDIO 出現一個 5bitPHY 寄存器地址。
MDIO 需 要 2 個時鐘的訪問時間。
MDIO 串行讀出 / 寫入 16bit 的寄存器數據。
MDIO 恢復成 IDLE 狀態,同時 MDIO 進入高阻狀態。
注:以上內容部分摘選自互聯網。
Linux 設備驅動程序 中對 ethtool 的支持
目前幾乎所有的網卡驅動程序都有對 ethtool 的支持,其框架如圖 2 所示,ethtool 框架包 含內核空間和用戶空間兩部分:用戶空間的部分負責將 ethtool 命令發送到內核,並接收命令的執行結果;內核空間的部 分根據相應的命令字,通過 MDIO/MDC 讀寫 MII 寄存器,實現對網卡的管理,並把執行結果傳回用戶空間。由於 Linux 網 絡驅動程序是一個復雜而龐大的體系,這裡只介紹驅動程序中對 MII 寄存器的定義,對 MDIO/MDC 的支持以及驅動程序中 實現如何實現 ethtool 功能部分。
圖 2.ethtool 在 Linux 中的實現框架
IEEE 802.3 規定的 MII 寄存器
關於 MII/GMII 接口 PHY 寄存器的定義在 802.3 的 22.2.4 Management functions. 章節中,如該章節中的 Table 22 – 6 和 Table 22 – 7(即本文的圖 3 和圖 4,均出自 http://standards.ieee.org/getieee802/download/802.3-2008_section2.pdf)所示,
圖 3. IEEE802.3 定義的 MII 管理寄存器集
可以 看到寄存器分為基本集和擴展集,基本集的定義因 GMII 和 MII 而不同,對於 MII, 基本集包括寄存器 0 控制寄存器和 1 狀態寄存器,而對於 GMII;基本集包括寄存器 0、1 和 15。控制寄存器 0 和狀態寄存器 1 的定義如圖 3 所示:
圖 4. IEEE802.3 定義的寄存器 0 控制寄存器和 1 狀態寄存器
對寄存器 0 和寄存器 1 的讀寫 可以實現對網卡的管理,清單 1 列出了部分 PHY 管理寄存器以及控制寄存器和狀態寄存器的各個 bit 的定義。
清 單 1,/kernel/drivers/net/Mii.h, 定義 PHY 管理寄存器
#define MII_BMCR 0x00 /* Basic mode control register */ #define MII_BMSR 0x01 /* Basic mode status register */ #define MII_PHYSID1 0x02 /* PHYS ID 1 */ #define MII_PHYSID2 0x03 /* PHYS ID 2 */ #define MII_ADVERTISE 0x04 /* Advertisement control reg */ #define MII_LPA 0x05 /* Link partner ability reg */ #define MII_EXPANSION 0x06 /* Expansion register */ #define MII_CTRL1000 0x09 /* 1000BASE-T control */ ... /* Basic mode control register. */ #define BMCR_RESV 0x003f /* Unused... */ #define BMCR_SPEED1000 0x0040 /* MSB of Speed (1000) */ #define BMCR_CTST 0x0080 /* Collision test */ #define BMCR_FULLDPLX 0x0100 /* Full duplex */ #define BMCR_ANRESTART 0x0200 /* Auto negotiation restart */ #define BMCR_ISOLATE 0x0400 /* Disconnect DP83840 from MII */ #define BMCR_PDOWN 0x0800 /* Powerdown the DP83840 */ #define BMCR_ANENABLE 0x1000 /* Enable auto negotiation */ #define BMCR_SPEED100 0x2000 /* Select 100Mbps */ #define BMCR_LOOPBACK 0x4000 /* TXD loopback bits */ #define BMCR_RESET 0x8000 /* Reset the DP83840 */ /* Basic mode status register. */ #define BMSR_ERCAP 0x0001 /* Ext-reg capability */ #define BMSR_JCD 0x0002 /* Jabber detected */ #define BMSR_LSTATUS 0x0004 /* Link status */ #define BMSR_ANEGCAPABLE 0x0008 /* Able to do auto-negotiation */ #define BMSR_RFAULT 0x0010 /* Remote fault detected */ #define BMSR_ANEGCOMPLETE 0x0020 /* Auto-negotiation complete */ #define BMSR_RESV 0x00c0 /* Unused... */ #define BMSR_ESTATEN 0x0100 /* Extended Status in R15 */ #define BMSR_100FULL2 0x0200 /* Can do 100BASE-T2 HDX */ #define BMSR_100HALF2 0x0400 /* Can do 100BASE-T2 FDX */ #define BMSR_10HALF 0x0800 /* Can do 10mbps, half-duplex */ #define BMSR_10FULL 0x1000 /* Can do 10mbps, full-duplex */ #define BMSR_100HALF 0x2000 /* Can do 100mbps, half-duplex */ #define BMSR_100FULL 0x4000 /* Can do 100mbps, full-duplex */ #define BMSR_100BASE4 0x8000 /* Can do 100mbps, 4k packets */
通過 MDC/MDIO 讀寫 MII 寄 存器的具體實現
在本文的前面部分介紹過 MDC/MDIO 的工作流程,網卡驅動程序中的 MDIO 讀寫函數 mdio_read 和 mdio_write,也就是清單 3 中的函數指針的具體實現是在各個網卡的驅動程序文件中完成的,都遵從 IEEE802.3 MDIO 的 幀格式。典型的幀格式是第 22 條款中定義的格式:
圖 5.IEEE802.3 條款 22 定義的 MDIO 幀格式
在驅動程序中實現 ethtool 功能
在 kernel/include/linux/ethtool.h 定義了結構體 ethtool_ops,這個結構體的所有成員都是函數指針類型,定義了 ethtool 可以實現的功能,該結構體成員變量較多,在這裡就不列出代碼清單;同時,在結構體 net_device 中也有成員變 量 ethtool_ops 如清單 2 所示,
清單 2,kernel/include/linux/NetDevice.h, net_device 中成員變量 ethtool_ops
struct net_device { ... const struct ethtool_ops *ethtool_ops; ... }
網卡驅動程序需要初始化 ethtool_ops 並且實現其定義的函數功能,從而實現對 ethtool 的支持,以 Dm9000.c 為例。
清單 3,kernel/drivers/net/Dm9000.c,DM9000 驅動程序對 ethtool 的支持
static const struct ethtool_ops dm9000_ethtool_ops = { .get_drvinfo = dm9000_get_drvinfo, .get_settings= dm9000_get_settings, .set_settings = dm9000_set_settings, .get_msglevel = dm9000_get_msglevel, .set_msglevel = dm9000_set_msglevel, .nway_reset= dm9000_nway_reset, .get_link = dm9000_get_link, .get_eeprom_len = dm9000_get_eeprom_len, .get_eeprom = dm9000_get_eeprom, .set_eeprom= dm9000_set_eeprom, .get_rx_csum= dm9000_get_rx_csum, .set_rx_csum= dm9000_set_rx_csum, .get_tx_csum= ethtool_op_get_tx_csum, .set_tx_csum= dm9000_set_tx_csum, }; ... ndev->ethtool_ops = &dm9000_ethtool_ops; ...
清單 3 中的各個函數在 DM9000 的驅動程序中均有實現,比如如果需要查看當前網絡的連接情況,可以通過 dm9000_get_link 獲得,函數的具體實現如清單 4:
清單 4,dm9000_get_link
static u32 dm9000_get_link(struct net_device *dev) { board_info_t *dm = to_dm9000_board(dev); u32 ret; if (dm->flags & DM9000_PLATF_EXT_PHY) ret = mii_link_ok(&dm->mii); else ret = dm9000_read_locked(dm, DM9000_NSR) & NSR_LINKST ? 1 : 0; return ret; } kernel/drivers/net/Mii.c int mii_link_ok (struct mii_if_info *mii) { /* first, a dummy read, needed to latch some MII phys */ mii->mdio_read(mii->dev, mii->phy_id, MII_BMSR); if (mii->mdio_read(mii->dev, mii->phy_id, MII_BMSR) & BMSR_LSTATUS) return 1; return 0; }
可以看到最終的實現還是通過 MDIO/MDC 讀取 PHY 寄存器得到。
除了管理網卡的命令,ethtool 還有還 有其它擴展的功能,ethtool 的框架十分有利於新功能的擴展,開發人員可以在這個框架裡加入自己想要的功能來實現對除 了網卡管理的其它功能,事實上,現在的 ethtool 已經提供了一些其它的功能,比如用來實現網卡 Firmware 的刷寫和更 新,對網絡驅動程序日志的控制等,這些新功能對於調試程序,修正錯誤是十分有利的。
清單 5, 部分 ethtool 的 擴展功能:firmware 更新和修改日志級別
ethtool -f|--flash DEVNAME FILENAME ethtool -s|--change DEVNAME msglvl %d
使用 ethtool 配置和管理網卡
上一節主要介紹了 ethtool 實 現的基礎和方法,本節將主要介紹 ethtool 的一些用法,主要集中在 ethtool 在配置和管理網卡方面的用法。
了 解 ethtool 用法最好的方法是查看 ethtool 的幫助信息“ethtool -h” 或者 “man ethtool”,由於幫助信息很多,這 裡就不一一列出了,將會舉例一些實際的應用例子代替。
實例 1,利用 ethtool 來查看網卡接口 eth4 的信息
清單 6,查看網卡的接口信息
root@IMMV2-DEV4:~# ethtool eth4 Settings for eth4: Supported ports: [ TP ] Supported link modes: 10baseT/Half 10baseT/Full 100baseT/Half 100baseT/Full 1000baseT/Full Supports auto-negotiation: Yes Advertised link modes: 10baseT/Half 10baseT/Full 100baseT/Half 100baseT/Full 1000baseT/Full Advertised auto-negotiation: Yes Speed: 100Mb/s Duplex: Full Port: Twisted Pair PHYAD: 1 Transceiver: internal Auto-negotiation: on Supports Wake-on: g Wake-on: g Link detected: yes
實例 2,關閉網卡的自動協商並且查看修改結果。
清單 7,關閉網卡的自動 協商並且查看修改結果
root@IMMV2-DEV4:~# ethtool -s eth4 autoneg off root@IMMV2-DEV4:~# ethtool eth4 Settings for eth4: Supported ports: [ TP ] Supported link modes: 10baseT/Half 10baseT/Full 100baseT/Half 100baseT/Full 1000baseT/Full Supports auto-negotiation: Yes Advertised link modes: Not reported Advertised auto-negotiation: No Speed: 100Mb/s Duplex: Full Port: Twisted Pair PHYAD: 1 Transceiver: internal Auto-negotiation: off Supports Wake-on: g Wake-on: g Link detected: yes
實例 3,關閉網卡的自動協商並且修改網卡的速率為 10Mb/s
清單 8,關閉網卡 的自動協商並修改網卡速率為 10Mb/s
root@IMMV2-DEV4:~# ethtool -s eth4 autoneg off speed 10 root@IMMV2-DEV4:~# ethtool eth4 Settings for eth4: Supported ports: [ TP ] Supported link modes: 10baseT/Half 10baseT/Full 100baseT/Half 100baseT/Full 1000baseT/Full Supports auto-negotiation: Yes Advertised link modes: Not reported Advertised auto-negotiation: No Speed: 10Mb/s Duplex: Full Port: Twisted Pair PHYAD: 1 Transceiver: internal Auto-negotiation: off Supports Wake-on: g Wake-on: g Link detected: yes
ethtool 的其它功能可以根據其幫助信息規定的語法來實現,這裡就不一一列舉。
擴展 ethtool
根據 NIC 的一些特性,可以擴展 ethtool 來完成對網卡特殊功能的支持,一個典型的擴展應 用就是增加 ethtool 對 SideBand 的支持功能,有關 SideBand 的介紹可以參考 IBM developerWorks 《淺談 NCSI 及其 在 Linux 上的實現
》。圖 6 是一個通過添加自定義的 cmd 和對應的實現函數來完成 SideBand 的 select_channel,enable_channel 及 disable_channel 等功能的框圖。以 select_channel 為例,可以通過如下的步驟來 實現。
圖 6, 擴展 ethtool 的 sideband 管理功能
ethtool 的 在用戶空間和內核空間同時添加命令字 ETHTOOL_SELCHANNEL;
在 ethtool.ops 中添加與 ETHTOOL_SELCHANNEL 相對應的執行函數 ethtool_select_channel;
在 dev_ethtool 函數中實現 ethtool_select_channel() 功能,這個函數的功能是利用協議棧的包發送接口向 NIC 的 mac 層發送包裝後的 NCSI 命令 協議包,並且接受相應的回應 , 類似的對於 ethtool_enable_channel(),ethtool_disable_channel 都可以按照相同的方 法來擴展,可以看出 ethtool 框架的擴展性是很好的,有利於開發人員根據實際需要來量身定制。
總結
ethtool 是一個 Linux 下功能強大的網絡管理工具,本文首先介紹了這個工具的實現原理和方法,重點介紹了 IEEE802.3.22 中的 MII 管理寄存器和 MDIO/MDC 標准以及 Linux 網絡驅動程序中對 ethtool 的支持,然後實例說明了利 用這個工具管理網卡的方法,最後介紹了在 ethtool 框架上擴展 SideBand 管理的實例,可以作為廣大開發人員的一個參 考。