在C中關於網絡字節序和主機字節序困擾了我一段時間,在python中實現字節流的網絡傳輸,必然這個問題也不可避免,但是我覺得在python中解決這個問題和演示起來比較方便一點。
上次用struct的pack方法實現了字節流(見 http://www.linuxidc.com/Linux/2014-02/97158.htm),那麼這裡就牽涉到一個字節流的字節序問題,當一個16位的int型數據形成01的字節流時,是高位在前,還是低位在前?這裡分為網絡字節序,和主機字節序。
Little endian:將低序字節存儲在起始地址
Big endian:將高序字節存儲在起始地址
LE little-endian :
最符合人的思維的字節序,地址低位存儲值的低位,地址高位存儲值的高位,怎麼講是最符合人的思維的字節序,是因為從人的第一觀感來說低位值小,就應該放在內存地址小的地方,也即內存地址低位反之,高位值就應該放在內存地址大的地方,也即內存地址高位
BE big-endian
最直觀的字節序,地址低位存儲值的高位,地址高位存儲值的低位,為什麼說直觀,不要考慮對應關系
只需要把內存地址從左到右按照由低到高的順序寫出,把值按照通常的高位到低位的順序寫出 兩者對照,一個字節一個字節的填充進去
例子:在內存中雙字0x01020304(DWORD)的存儲方式
內存地址
4000 4001 4002 4003
LE 04 03 02 01
BE 01 02 03 04
例子:如果我們將0x1234abcd寫入到以0x0000開始的內存中,則結果為
big-endian little-endian
0x0000 0x12 0xcd
0x0001 0x23 0xab
0x0002 0xab 0x34
0x0003 0xcd 0x12
x86系列CPU都是little-endian的字節序.
我們用python來試驗一下:
>>> from struct import *
>>> pack('@h',14)
'\x0e\x00'
>>>
int型的整數14用二進制表示應該為0000000000001110,十六進制的話應該為0x00\ox0e ,但是如果說是低位字節存放低位,那麼低位字節0x0e就應該存在低位,然後高位就存放0x00,這就是我們電腦在內存中存放這個數的形式。我們用pack,參數為’@h’,就是把14按照主機字節序,以2字節的int型存放到內存中的。
網絡字節順序是TCP/IP中規定好的一種數據表示格式,它與具體的CPU類型、操作系統等無關,從而可以保證數據在不同主機之間傳輸時能夠被正確解釋。網絡字節順序采用big endian排序方式。那麼如果我們要把數據流發到網絡上,必須把字節順序改為高字節在前,低字節在後,就是我們發送一個0000000000001110,我們必須先發高字節00000000,然後在發低字節00001110,也就是十六進制的0x00 0x0e
在struct的pack打包中,提供了一個’!’,來實現網絡字節序,比如同樣是上面的例子:
>>> from struct import *
>>> pack('!h',14)
'\x00\x0e'
>>>
可以看到,確實是高字節在前,低字節在後了。假如我們要把這個14通過UDP協議發送給另外一個主機,那麼我們就要用這個字節序。
下面我看一個具體傳輸的例子吧,基於UDP的。
首先我們在server和client端都用網絡字節序來pack和unpack,我們看看結果會是什麼樣:
Server端:
import socket
import struct
BUFSIZ=1024
ADDR=('localhost',2046)
recvsocket=socket.socket(socket.AF_INET,socket.SOCK_DGRAM)
while True:
print 'waiting for the data'
data,addr=recvsocket.recvfrom(BUFSIZ)
print repr(data)
(data1,)=struct.unpack('h',data)
print repr(data1)
(data2,)=struct.unpack('!h',data)
print data2
recvsocket.close()
下面是client端:
import socket
import struct
BUFSIZ=1024
ADDR=('localhost',2046)
sendsocket=socket.socket(socket.AF_INET,socket.SOCK_DGRAM)
data=struct.pack('!h',14)
print repr(data)
sendsocket.sendto(data,ADDR)
sendsocket.close()
我們還是在client端往server端發一個14,int型數據,我們看看運行結果:
其中紅色命令窗口為client端,綠色是server端,可以看到14通過pack傳出去的確是高字節在前,低字節在後,屬於網絡字節序,而server收到的14在內存中也是高字節在前,低字節在後的,這樣我們通過unpack就能得到正確的結果。
整個過程是這樣的:
14也就是0000000000001110,用pack時候我們用的網絡字節序來存,那麼在內存中高字節00000000在前,低字節00001110在後(假如不指定用網絡字節序的話,它會顛倒)然後我們傳輸的時候,因為網絡傳輸是默認高字節在前,00000000先傳,00001110後傳,到接受端接收到的還沒有unpack的數據也就是00000000在前,00001110在後了,如果這時候我們unpack不用網絡字節序來分的話,那麼得到的結果就是錯誤的,因為那麼CPU會以為這個數不是0000000000001110而是0000111000000000.所以就不對了。
附注:
1、網絡與主機字節轉換函數:htons ntohs htonl ntohl (s 就是short l是long h是host n是network)
2、不同的CPU上運行不同的操作系統,字節序也是不同的,參見下表。
處理器 操作系統 字節排序
Alpha 全部 Little endian
HP-PA NT Little endian
HP-PA UNIX Big endian
Intelx86 全部 Little endian <-----x86系統是小端字節序系統
Motorola680x() 全部 Big endian
MIPS NT Little endian
MIPS UNIX Big endian
PowerPC NT Little endian
PowerPC 非NT Big endian <-----PPC系統是大端字節序系統
RS/6000 UNIX Big endian
SPARC UNIX Big endian
IXP1200 ARM核心 全部 Little endian
Python 的詳細介紹:請點這裡
Python 的下載地址:請點這裡