所謂的TSO就是TCP Segment Offload,TSO的原理說起來也不算太難,就是利用網卡實現TCP分段,從而達到縮短CPU周期的目的。本文就來介紹一下Linux系統TSO的實現原理。
TSO的原理幾乎每個人都知道,事實上它是怎麼實現的這個問題也不難,難的是細節。在做完了正事之後,我想把這個原理展現出來,當然可能和實際的實現有超級大的出入,不管怎樣,它是一個原理框圖,仔細觀察,應該也能自己實現一個比我這個更好的TSO了。
這個設計是一個數字邏輯,時序電路的范疇,而這個領域十分地高大上,並不是普通的軟件程序員能hold住的,像我這樣的半瓶子也一樣。所以我依然是按照老樣子,試圖直接給出一個結果,而不是要求聽書的人事先做一些准備,往往在人們做這些准備工作的時候,就已經厭倦放棄了。
基礎知識不難,就是一些門電路,與門,非門,比較器,譯碼器,觸發器之類的,這些東西隨便找一本計算機組成原理,都很齊全。關鍵是怎麼組合它們,這是另一個領域的編程。此時,我想起了15年前我的高中物理老濕劉丹青在講電路的時候說過的一句話:讓電流流一下。這句話在科班人看來完全不符合電路設計的基本原則,他們可能更傾向於首先建模,然後分析,然後使用描述語言VHDL寫出代碼,最後再給出電路,我覺得這適合於設計本身,但是不適合於對一個門外漢講述其精彩。對於一個門外漢來講,他唯一所知道的就是,讓電流流一下,然後沖過這個門,沖過那個管,好了,高電平變成低平了。。。
在一張白紙上,畫出一堆的門電路,然後隨性隨意組合它們,慢慢的,我突然發現,這個電路就是TSO的框架了。我記得上周幫人固化了路由轉發表,然而那種固化行為可能會因為成本過高而被pass掉,畢竟如今的軟實現已經夠用了吧。所以只有核心傳輸網才需要這種固化的轉發表,然而TSO卻是服務器領域的首推,服務器太多了,遠比核心轉發設備多,它們的CPU需要減負,確實,CPU去計算一些固定模式的東西,有點浪費,它應該花更多的精力去處理一些不可控的東西。所以TCP分段這種事情自然而然就由網卡代勞了。你,我,他,我們都遇到過TSO,但是我們只會開啟,關閉它,如果你想知道它到底是怎麼Offload的,請看下圖,讓電流流一流:
TCP分段和IP分片的區別很大,這個事你一定要明白。然後才可以看懂上面的圖。
以上的解析只是一個特例,事實上,所有的硬件加速機制無非都是一樣的機制。當我在看Intel千兆/萬兆網卡的手冊時,我想到在芯片的內部,這種電路的元件幾乎是海量的,實現了RSS,硬件hash分類等。這就是我所謂的江河泛濫,沿著溝壑瞬間吞噬大地,我們該如何挖溝填壑,這不是本文的目的,本文只是描述了這種可能性。這也是這種專用電路和通用CPU之間的本質區別。CPU存在著一個指令集,這意味著它是關注於外部如何調用的,而專用電路的關注點在於內部的執行邏輯,它幾乎不對外提供任何接口,唯一的就是設置幾個寄存器的值,比如MTU,數據包長度,數據包頭長度等,其它的執行邏輯,外部無權過問。這是串行編程和並行執行的本質區別。
對於指令系統,也有一些要說的。在內部控制邏輯上,有一個統一的指令分發系統,實際上就是發射出一系列的0和1的組合,這個組合中的0和1作用於各種門電路,這些門電路接受了這些不同的輸入後,產生不同的輸出,然後再作為另外的門電路的輸入,造成不同的輸出,如此反復。。。難道事實不是這樣子嗎?你很難否則定。
讓電流流一流,如果你覺得比較抽象,那就觀察洪水泛濫的過程吧,大河決堤的地點不同,造成的災難也不同,關鍵在於決堤處的地勢以及其所連接的各種地形,這一切都是同時發生的,和電流一樣,水流在經過一個彎道或者一道拱橋的時候,也會有一些延時和分流,這就可以類比電路中的各種門。
好了,Linux系統TSO的實現原理就為大家介紹到這裡了,是不是看得有點暈了,看明白文中的那個圖,就能看得更清楚一點了。