二.Linux系統網絡設備驅動程序
2.1 網絡驅動程序的結構
所有的Linux網絡驅動程序遵循通用的接口。設計時采用的是面向對象的方法。一個設備就是一個對象(device 結構),它內部有自己的數據和方法。每一個設備的方法被調用時的第一個參數都是這個設備對象本身。這樣這個方法就可以存取自身的數據(類似面向對象程序設計時的this引用)。一個網絡設備最基本的方法有初始化、發送和接收。
------------------- --------------------- |deliver packets | |receive packets queue| |(dev_queue_xmit()) | |them(netif_rx()) | ------------------- --------------------- | | / / | | ------------------------------------------------------- | methods and variables(initialize,open,close,hard_xmit,| | interrupt handler,config,resources,status...) | ------------------------------------------------------- | | / / | | ----------------- ---------------------- |send to hardware | |receivce from hardware| ----------------- ---------------------- | | / / | | ----------------------------------------------------- | hardware media | -----------------------------------------------------
初始化程序完成硬件的初始化、device中變量的初始化和系統資源的申請、發送程序是在驅動程序的上層協議層有數據要發送時自動調用的。一般驅動程序中不對發送數據進行緩存,而是直接使用硬件的發送功能把數據發送出去。接收數據一般是通過硬件中斷來通知的。在中斷處理程序裡,把硬件幀信息填入一個skbuff結構中,然後調用netif_rx()傳遞給上層處理。
2.2 網絡驅動程序的基本方法
網絡設備做為一個對象,提供一些方法供系統訪問。正是這些有統一接口的方法,掩蔽了硬件的具體細節,讓系統對各種網絡設備的訪問都采用統一的形式,做到硬件無關性。
下面解釋最基本的方法。
2.2.1 初始化(initialize)
驅動程序必須有一個初始化方法。在把驅動程序載入系統的時候會調用這個初始化程序。它做以下幾方面的工作。檢測設備。在初始化程序裡你可以根據硬件的特征檢查硬件是否存在,然後決定是否啟動這個驅動程序。配置和初始化硬件。在初始化程序裡你可以完成對硬件資源的配置,比如即插即用的硬件就可以在這個時候進行配置(Linux內核對PnP功能沒有很好的支持,可以在驅動程序裡完成這個功能)。配置或協商好硬件占用的資源以後,就可以向系統申請這些資源。有些資源是能)。配置或協商好硬件占用的資源以後,就可以向系統申請這些資源。有些資源是可以和別的設備共享的,如中斷。有些是不能共享的,如IO、DMA。接下來你要初始化device結構中的變量。最後,你可以讓硬件正式開始工作。
2.2.2 打開(open)
open這個方法在網絡設備驅動程序裡是網絡設備被激活的時候被調用(即設備狀態由down-->up)。所以實際上很多在initialize中的工作可以放到這裡來做。比如資源的申請,硬件的激活。如果dev->open返回非0(error),則硬件的狀態還是down。
open方法另一個作用是如果驅動程序做為一個模塊被裝入,則要防止模塊卸載時設備處於打開狀態。在open方法裡要調用MOD_INC_USE_COUNT宏。
2.2.3 關閉(stop)
close方法做和open相反的工作。可以釋放某些資源以減少系統負擔。close是在設備狀態由up轉為down時被調用的。另外如果是做為模塊裝入的驅動程序,close裡應該調用MOD_DEC_USE_COUNT,減少設備被引用的次數,以使驅動程序可以被卸載。另外close方法必須返回成功(0==success)。
2.2.4 發送(hard_start_xmit)
所有的網絡設備驅動程序都必須有這個發送方法。在系統調用驅動程序的xmit時,發送的數據放在一個sk_buff結構中。一般的驅動程序把數據傳給硬件發出去。也有一些特殊的設備比如loopback把數據組成一個接收數據再回送給系統,或者dummy設備直接丟棄數據。如果發送成功,hard_start_xmit方法裡釋放sk_buff,返回0(發送成功)。如果發送成功,hard_start_xmit方法裡釋放sk_buff,返回0(發送成功)。如果設備暫時無法處理,比如硬件忙,則返回1。這時如果dev->tbusy置為非0,則系統認為硬件忙,要等到dev->tbusy置0以後才會再次發送。tbusy的置0任務一般由中斷完成。硬件在發送結束後產生中斷,這時可以把tbusy置0,然後用mark_bh()調用通知系統可以再次發送。在發送不成功的情況下,也可以不置dev->tbusy為非0,這樣系統會不斷嘗試重發。如果hard_start_xmit發送不成功,則不要釋放sk_buff。
傳送下來的sk_buff中的數據已經包含硬件需要的幀頭。所以在發送方法裡不需要再填充硬件幀頭,數據可以直接提交給硬件發送。sk_buff是被鎖住的(locked),確保其他程序不會存取它。
2.2.5 接收(reception)
驅動程序並不存在一個接收方法。有數據收到應該是驅動程序來通知系統的。一般設備收到數據後都會產生一個中斷,在中斷處理程序中驅動程序申請一塊sk_buff(skb),從硬件讀出數據放置到申請好的緩沖區裡。接下來填充sk_buff中的一些信息。skb->dev = dev,判斷收到幀的協議類型,填入skb->protocol(多協議的支持)。把指針skb->mac.raw指向硬件數據然後丟棄硬件幀頭(skb_pull)。還要設置skb->pkt_type,標明第二層(鏈路層)數據類型。可以是以下類型:
PACKET_BROADCAST : 鏈路層廣播
PACKET_MULTICAST : 鏈路層組播
PACKET_SELF : 發給自己的幀
PACKET_OTHERHOST : 發給別人的幀(監聽模式時會有這種幀)
最後調用netif_rx()把數據傳送給協議層。netif_rx()裡數據放入處理隊列然後返最後調用netif_rx()把數據傳送給協議層。netif_rx()裡數據放入處理隊列然後返回,真正的處理是在中斷返回以後,這樣可以減少中斷時間。調用netif_rx()以後,驅動程序就不能再存取數據緩沖區skb。
2.2.6 硬件幀頭(hard_header)
硬件一般都會在上層數據發送之前加上自己的硬件幀頭,比如以太網(Ethernet)就有14字節的幀頭。這個幀頭是加在上層ip、ipx等數據包的前面的。驅動程序提供一個hard_header方法,協議層(ip、ipx、arp等)在發送數據之前會調用這段程序。硬件幀頭的長度必須填在dev->hard_header_len,這樣協議層回在數據之前保留好硬件幀頭的空間。這樣hard_header程序只要調用skb_push然後正確填入硬件幀頭就可以了。
在協議層調用hard_header時,傳送的參數包括(2.0.xx):數據的sk_buff,
device指針,protocol,目的地址(daddr),源地址(saddr),數據長度(len)。數據長度不要使用sk_buff中的參數,因為調用hard_header時數據可能還沒完全組織好。saddr是NULL的話是使用缺省地址(default)。daddr是NULL表明協議層不知道硬件目的地址。如果hard_header完全填好了硬件幀頭,則返回添加的字節數。如果硬件幀頭中的信息還不完全(比如daddr為NULL,但是幀頭中需要目的硬件地址。典型的情況是以太網需要地址解析(arp)),則返回負字節數。hard_header返回負數的情況下,協議層會做進一步的build header的工作。目前Linux系統裡就是做arp(如果hard_header返回正,dev->arp=1,表明不需要做arp,返回負,dev->arp=0,做arp)。對hard_header的調用在每個協議層的處理程序裡。如ip_output。
2.2.7 地址解析(xarp)
有些網絡有硬件地址(比如Ethernet),並且在發送硬件幀時需要知道目的硬件地址。這樣就需要上層協議地址(ip、ipx)和硬件地址的對應。這個對應是通過地址解析完成的。需要做arp的的設備在發送之前會調用驅動程序的rebuild_header方法。調用的主要參數包括指向硬件幀頭的指針,協議層地址。如果驅動程序能夠解析硬件地址,就返回1,如果不能,返回0。
對rebuild_header的調用在net/core/dev.c的do_dev_queue_xmit()裡。
2.2.8 參數設置和統計數據
在驅動程序裡還提供一些方法供系統對設備的參數進行設置和讀取信息。一般只有超級用戶(root)權限才能對設備參數進行設置。設置方法有:
dev->set_mac_address()
當用戶調用ioctl類型為SIOCSIFHWADDR時是要設置這個設備的mac地址。一般對mac地址的設置沒有太大意義的。
dev->set_config()
當用戶調用ioctl時類型為SIOCSIFMAP時,系統會調用驅動程序的set_config方法。用戶會傳遞一個ifmap結構包含需要的I/O、中斷等參數。
dev->do_ioctl()
dev->do_ioctl()
如果用戶調用ioctl時類型在SIOCDEVPRIVATE和SIOCDEVPRIVATE+15之間,系統會調用驅動程序的這個方法。一般是設置設備的專用數據。
讀取信息也是通過ioctl調用進行。除次之外驅動程序還可以提供一個
dev->get_stats方法,返回一個enet_statistics結構,包含發送接收的統計信息。
ioctl的處理在net/core/dev.c的dev_ioctl()和dev_ifsioc()裡。
2.3 網絡驅動程序中用到的數據結構
最重要的是網絡設備的數據結構。定義在include/linux/netdevice.h裡。它的注釋已經足夠詳盡。
struct device { /* * This is the first field of the "visible" part of this structure * (i.e. as seen by users in the "Space.c" file). It is the name * the interface. */ char *name; /* I/O specific fields - FIXME: Merge these and struct ifmap into one */ unsigned long rmem_end; /* shmem "recv" end */ unsigned long rmem_end; /* shmem "recv" end */ unsigned long rmem_start; /* shmem "recv" start */ unsigned long mem_end; /* shared mem end */ unsigned long mem_start; /* shared mem start */ unsigned long base_addr; /* device I/O address */ unsigned char irq; /* device IRQ number */ /* Low-level status flags. */ volatile unsigned char start, /* start an operation */ interrupt; /* interrupt arrived */ /* 在處理中斷時interrupt設為1,處理完清0。 */ unsigned long tbusy; /* transmitter busy must be long for struct device *next; /* The device initialization function. Called only once. */ /* 指向驅動程序的初始化方法。 */ int (*init)(struct device *dev); /* Some hardware also needs these fields, but they are not part of the usual set specified in Space.c. */ /* 一些硬件可以在一塊板上支持多個接口,可能用到if_port。 */ /* 一些硬件可以在一塊板上支持多個接口,可能用到if_port。 */ unsigned char if_port; /* Selectable AUI, TP,..*/ unsigned char dma; /* DMA channel */ struct enet_statistics* (*get_stats)(struct device *dev); /* * This marks the end of the "visible" part of the structure. All * fields hereafter are internal to the system, and may change at * will (read: may be cleaned up at will). */ /* These may be needed for future network-power-down code. */ /* trans_start記錄最後一次成功發送的時間。可以用來確定硬件是否工作正常。*/ unsigned long trans_start; /* Time (in jiffies) of last Tx */ unsigned long last_rx; /* Time of last Rx */ /* flags裡面有很多內容,定義在include/linux/if.h裡。*/ unsigned short flags; /* interface flags (a la BSD) */ unsigned short family; /* address family ID (AF_INET) */ unsigned short metric; /* routing metric (not used) */ unsigned short mtu; /* interface MTU value */ /* type標明物理硬件的類型。主要說明硬件是否需要arp。定義在 include/linux/if_arp.h裡。 */ unsigned short type; /* interface hardware type */ /* 上層協議層根據hard_header_len在發送數據緩沖區前面預留硬件幀頭空間。*/ unsigned short hard_header_len; /* hardware hdr length */ /* priv指向驅動程序自己定義的一些參數。*/ void *priv; /* pointer to private data */ /* Interface address info. */ unsigned char broadcast[MAX_ADDR_LEN]; /* hw bcast add */ unsigned char pad; /* make dev_addr aligned to 8 bytes */ unsigned char dev_addr[MAX_ADDR_LEN]; /* hw address */ unsigned char addr_len; /* hardware address length */ unsigned long pa_addr; /* protocol address */ unsigned long pa_brdaddr; /* protocol broadcast addr */ unsigned long pa_dstaddr; /* protocol P-P other side addr */ unsigned long pa_mask; /* protocol netmask */ struct dev_mc_list *mc_list; /* Multicast mac addresses */ int mc_count; /* Number of installed mcasts */ struct ip_mc_list *ip_mc_list; /* IP multicast filter chain */ __u32 tx_queue_len; /* Max frames per queue allowed */ /* For load balancing driver pair support */ unsigned long pkt_queue; /* Packets queued */ struct device *slave; /* Slave device */ struct net_alias_info *alias_info; /* main dev alias info */ struct net_alias *my_alias; /* alias devs */ /* Pointer to the interface buffers. */ struct sk_buff_head buffs[DEV_NUMBUFFS]; /* Pointers to interface service routines. */ int (*open)(struct device *dev); int (*hard_start_xmit) (struct sk_buff *skb, struct device *dev); int (*hard_header) (struct sk_buff *skb, struct device *dev, unsigned short type, void *daddr, void *saddr, unsigned len); int (*rebuild_header)(void *eth, struct device *dev, unsigned long raddr, struct sk_buff *skb); #define HAVE_MULTICAST void (*set_multicast_list)(struct device *dev); #define HAVE_SET_MAC_ADDR int (*set_mac_address)(struct device *dev, void *addr); #define HAVE_PRIVATE_IOCTL int (*do_ioctl)(struct device *dev, struct ifreq *ifr, int cmd); #define HAVE_SET_CONFIG int (*set_config)(struct device *dev, struct ifmap *map); #define HAVE_HEADER_CACHE void (*header_cache_bind)(struct hh_cache **hhp, struct dev ice *dev, unsigned short htype, __u32 daddr); *dev, unsigned short htype, __u32 daddr); void (*header_cache_update)(struct hh_cache *hh, struct dev ice *dev, unsigned char * haddr); #define HAVE_CHANGE_MTU struct iw_statistics* (*get_wireless_stats)(struct device *dev); };