您现在的位置： Linux教程網 >> UnixLinux > >> Linux編程 >> Linux編程

Python網絡字節序和主機字節序

在C中關於網絡字節序和主機字節序困擾了我一段時間，在python中實現字節流的網絡傳輸，必然這個問題也不可避免，但是我覺得在python中解決這個問題和演示起來比較方便一點。

上次用struct的pack方法實現了字節流（見 http://www.linuxidc.com/Linux/2014-02/97158.htm），那麼這裡就牽涉到一個字節流的字節序問題，當一個16位的int型數據形成01的字節流時，是高位在前，還是低位在前？這裡分為網絡字節序，和主機字節序。

Little endian：將低序字節存儲在起始地址

Big endian：將高序字節存儲在起始地址

LE little-endian ：
最符合人的思維的字節序，地址低位存儲值的低位，地址高位存儲值的高位，怎麼講是最符合人的思維的字節序，是因為從人的第一觀感來說低位值小，就應該放在內存地址小的地方，也即內存地址低位反之，高位值就應該放在內存地址大的地方，也即內存地址高位

BE big-endian
最直觀的字節序，地址低位存儲值的高位，地址高位存儲值的低位，為什麼說直觀，不要考慮對應關系
只需要把內存地址從左到右按照由低到高的順序寫出，把值按照通常的高位到低位的順序寫出兩者對照，一個字節一個字節的填充進去

例子：在內存中雙字0x01020304(DWORD)的存儲方式

內存地址
4000 4001 4002 4003
LE 04 03 02 01
BE 01 02 03 04

例子：如果我們將0x1234abcd寫入到以0x0000開始的內存中，則結果為
big-endian little-endian
0x0000 0x12 0xcd
0x0001 0x23 0xab
0x0002 0xab 0x34
0x0003 0xcd 0x12
x86系列CPU都是little-endian的字節序.

我們用python來試驗一下：

>>> from struct import *

>>> pack('@h',14)

'\x0e\x00'

>>>
int型的整數14用二進制表示應該為0000000000001110,十六進制的話應該為0x00\ox0e ,但是如果說是低位字節存放低位，那麼低位字節0x0e就應該存在低位，然後高位就存放0x00，這就是我們電腦在內存中存放這個數的形式。我們用pack，參數為’@h’,就是把14按照主機字節序，以2字節的int型存放到內存中的。

網絡字節順序是TCP/IP中規定好的一種數據表示格式，它與具體的CPU類型、操作系統等無關，從而可以保證數據在不同主機之間傳輸時能夠被正確解釋。網絡字節順序采用big endian排序方式。那麼如果我們要把數據流發到網絡上，必須把字節順序改為高字節在前，低字節在後，就是我們發送一個0000000000001110，我們必須先發高字節00000000，然後在發低字節00001110，也就是十六進制的0x00 0x0e

在struct的pack打包中，提供了一個’！’,來實現網絡字節序，比如同樣是上面的例子：

>>> from struct import *

>>> pack('!h',14)

'\x00\x0e'

>>>

可以看到，確實是高字節在前，低字節在後了。假如我們要把這個14通過UDP協議發送給另外一個主機，那麼我們就要用這個字節序。

下面我看一個具體傳輸的例子吧，基於UDP的。

首先我們在server和client端都用網絡字節序來pack和unpack，我們看看結果會是什麼樣：

Server端：

import socket

import struct

BUFSIZ=1024

ADDR=('localhost',2046)

recvsocket=socket.socket(socket.AF_INET,socket.SOCK_DGRAM)

while True:

print 'waiting for the data'

data,addr=recvsocket.recvfrom(BUFSIZ)

print repr(data)

(data1,)=struct.unpack('h',data)

print repr(data1)

(data2,)=struct.unpack('!h',data)

print data2

recvsocket.close()

下面是client端：

import socket

import struct

BUFSIZ=1024

ADDR=('localhost',2046)

sendsocket=socket.socket(socket.AF_INET,socket.SOCK_DGRAM)

data=struct.pack('!h',14)

print repr(data)

sendsocket.sendto(data,ADDR)

sendsocket.close()

我們還是在client端往server端發一個14，int型數據，我們看看運行結果：

其中紅色命令窗口為client端，綠色是server端，可以看到14通過pack傳出去的確是高字節在前，低字節在後，屬於網絡字節序，而server收到的14在內存中也是高字節在前，低字節在後的，這樣我們通過unpack就能得到正確的結果。

整個過程是這樣的：

14也就是0000000000001110，用pack時候我們用的網絡字節序來存，那麼在內存中高字節00000000在前，低字節00001110在後（假如不指定用網絡字節序的話，它會顛倒）然後我們傳輸的時候，因為網絡傳輸是默認高字節在前，00000000先傳，00001110後傳，到接受端接收到的還沒有unpack的數據也就是00000000在前，00001110在後了，如果這時候我們unpack不用網絡字節序來分的話，那麼得到的結果就是錯誤的，因為那麼CPU會以為這個數不是0000000000001110而是0000111000000000.所以就不對了。

附注：
1、網絡與主機字節轉換函數:htons ntohs htonl ntohl (s 就是short l是long h是host n是network)
2、不同的CPU上運行不同的操作系統，字節序也是不同的，參見下表。
處理器操作系統字節排序
Alpha 全部 Little endian
HP-PA NT Little endian
HP-PA UNIX Big endian
Intelx86 全部 Little endian <-----x86系統是小端字節序系統
Motorola680x() 全部 Big endian
MIPS NT Little endian
MIPS UNIX Big endian
PowerPC NT Little endian
PowerPC 非NT Big endian <-----PPC系統是大端字節序系統
RS/6000 UNIX Big endian
SPARC UNIX Big endian
IXP1200 ARM核心全部 Little endian

Python 的詳細介紹：請點這裡
Python 的下載地址：請點這裡

上一篇文章： Python模塊——struct（字節流，組包拆包實現）
下一篇文章：使用Twisted編寫服務器

Linux編程