歡迎來到Linux教程網
Linux教程網
Linux教程網
Linux教程網
您现在的位置: Linux教程網 >> UnixLinux >  >> Linux編程 >> Linux編程

Python網絡字節序和主機字節序

在C中關於網絡字節序和主機字節序困擾了我一段時間,在python中實現字節流的網絡傳輸,必然這個問題也不可避免,但是我覺得在python中解決這個問題和演示起來比較方便一點。

上次用struct的pack方法實現了字節流(見 http://www.linuxidc.com/Linux/2014-02/97158.htm),那麼這裡就牽涉到一個字節流的字節序問題,當一個16位的int型數據形成01的字節流時,是高位在前,還是低位在前?這裡分為網絡字節序,和主機字節序。

Little endian:將低序字節存儲在起始地址

Big endian:將高序字節存儲在起始地址

LE little-endian :
最符合人的思維的字節序,地址低位存儲值的低位,地址高位存儲值的高位,怎麼講是最符合人的思維的字節序,是因為從人的第一觀感來說低位值小,就應該放在內存地址小的地方,也即內存地址低位反之,高位值就應該放在內存地址大的地方,也即內存地址高位

BE big-endian
  最直觀的字節序,地址低位存儲值的高位,地址高位存儲值的低位,為什麼說直觀,不要考慮對應關系
只需要把內存地址從左到右按照由低到高的順序寫出,把值按照通常的高位到低位的順序寫出 兩者對照,一個字節一個字節的填充進去

例子:在內存中雙字0x01020304(DWORD)的存儲方式

內存地址
4000 4001 4002 4003
LE 04 03 02 01
BE 01 02 03 04

例子:如果我們將0x1234abcd寫入到以0x0000開始的內存中,則結果為
      big-endian  little-endian
0x0000  0x12      0xcd
0x0001  0x23      0xab
0x0002  0xab      0x34
0x0003  0xcd      0x12
x86系列CPU都是little-endian的字節序.

我們用python來試驗一下:

>>> from struct import *

>>> pack('@h',14)

'\x0e\x00'

>>>
    int型的整數14用二進制表示應該為0000000000001110,十六進制的話應該為0x00\ox0e ,但是如果說是低位字節存放低位,那麼低位字節0x0e就應該存在低位,然後高位就存放0x00,這就是我們電腦在內存中存放這個數的形式。我們用pack,參數為’@h’,就是把14按照主機字節序,以2字節的int型存放到內存中的。

    網絡字節順序是TCP/IP中規定好的一種數據表示格式,它與具體的CPU類型、操作系統等無關,從而可以保證數據在不同主機之間傳輸時能夠被正確解釋。網絡字節順序采用big endian排序方式。那麼如果我們要把數據流發到網絡上,必須把字節順序改為高字節在前,低字節在後,就是我們發送一個0000000000001110,我們必須先發高字節00000000,然後在發低字節00001110,也就是十六進制的0x00 0x0e

在struct的pack打包中,提供了一個’!’,來實現網絡字節序,比如同樣是上面的例子:

>>> from struct import *

>>> pack('!h',14)

'\x00\x0e'

>>>

    可以看到,確實是高字節在前,低字節在後了。假如我們要把這個14通過UDP協議發送給另外一個主機,那麼我們就要用這個字節序。

    下面我看一個具體傳輸的例子吧,基於UDP的。

    首先我們在server和client端都用網絡字節序來pack和unpack,我們看看結果會是什麼樣:

Server端:

import socket

import struct

 

BUFSIZ=1024

ADDR=('localhost',2046)

recvsocket=socket.socket(socket.AF_INET,socket.SOCK_DGRAM)

while True:

    print 'waiting for the data'

    data,addr=recvsocket.recvfrom(BUFSIZ)

    print repr(data)

    (data1,)=struct.unpack('h',data)

    print repr(data1)

    (data2,)=struct.unpack('!h',data)

    print data2

 

recvsocket.close()

 下面是client端:

import socket

import struct

 

BUFSIZ=1024

ADDR=('localhost',2046)

sendsocket=socket.socket(socket.AF_INET,socket.SOCK_DGRAM)

data=struct.pack('!h',14)

print repr(data)

sendsocket.sendto(data,ADDR)

 

sendsocket.close()

    我們還是在client端往server端發一個14,int型數據,我們看看運行結果: 

 

    其中紅色命令窗口為client端,綠色是server端,可以看到14通過pack傳出去的確是高字節在前,低字節在後,屬於網絡字節序,而server收到的14在內存中也是高字節在前,低字節在後的,這樣我們通過unpack就能得到正確的結果。

    整個過程是這樣的:

    14也就是0000000000001110,用pack時候我們用的網絡字節序來存,那麼在內存中高字節00000000在前,低字節00001110在後(假如不指定用網絡字節序的話,它會顛倒)然後我們傳輸的時候,因為網絡傳輸是默認高字節在前,00000000先傳,00001110後傳,到接受端接收到的還沒有unpack的數據也就是00000000在前,00001110在後了,如果這時候我們unpack不用網絡字節序來分的話,那麼得到的結果就是錯誤的,因為那麼CPU會以為這個數不是0000000000001110而是0000111000000000.所以就不對了。

附注
1、網絡與主機字節轉換函數:htons ntohs htonl ntohl (s 就是short l是long h是host n是network)
2、不同的CPU上運行不同的操作系統,字節序也是不同的,參見下表。
處理器    操作系統    字節排序
Alpha    全部    Little endian
HP-PA    NT    Little endian
HP-PA    UNIX    Big endian
Intelx86    全部    Little endian <-----x86系統是小端字節序系統
Motorola680x()    全部    Big endian
MIPS    NT    Little endian
MIPS    UNIX    Big endian
PowerPC    NT    Little endian
PowerPC    非NT    Big endian  <-----PPC系統是大端字節序系統
RS/6000    UNIX    Big endian
SPARC    UNIX    Big endian
IXP1200 ARM核心    全部    Little endian

Python 的詳細介紹:請點這裡
Python 的下載地址:請點這裡

Copyright © Linux教程網 All Rights Reserved