古語有雲:工欲善其事,必先利其器!在進入Linux內核的真正學習之前,我們需要一些准備工作,因為只有達到了一定的知識儲備要求,才能事半功倍。
相關閱讀:Linux內核學習筆記——系統啟動 http://www.linuxidc.com/Linux/2012-01/51498.htm
對於一個內核初學者來說,經常遇到:保護模式,分段機制,分頁機制,線性地址,中斷門,局部描述符等名詞,任何一個復雜的設計都是由一個簡單的設計發展起來的,當簡單的設計滿足不了實際需求時,就會一步步革新,一個個新的、復雜的概念應運而生。因此,個人認為要理解一個復雜問題的最好方法不是強行記住它,而是從簡單入手,一步步推敲,最終會積水成淵。有人會說:我只是吃個蘋果,沒必要知道蘋果是樹上結的還是地下種的。那麼,如果你是賣蘋果的呢?長話短說,廢話不說,下面我們進入正題:
一、80X86寄存器
32位CPU所含有的寄存器有:
4個數據寄存器(EAX、EBX、ECX和EDX)
2個變址和指針寄存器(ESI和EDI) 2個指針寄存器(ESP和EBP)
6個段寄存器(ES、CS、SS、DS、FS和GS)
1個指令指針寄存器(EIP) 1個標志寄存器(EFlags)
下面對這些寄存器進行一一介紹:
1、數據寄存器
數據寄存器主要用來保存操作數和運算結果等信息,從而節省讀取操作數所需占用總線和訪問存儲器的時間。32位CPU有4個32位的通用寄存器EAX、EBX、ECX和EDX。對低16位數據的存取,不會影響高16位的數據。這些低16位寄存器分別命名為:AX、BX、CX和DX,它和先前的CPU中的寄存器相一致。4個16位寄存器又可分割成8個獨立的8位寄存器(AX:AH-AL、BX:BH-BL、CX:CH-CL、DX:DH-DL),每個寄存器都有自己的名稱,可獨立存取。程序員可利用數據寄存器的這種“可分可合”的特性,靈活地處理字/字節的信息。
AX和AL通常稱為累加器(Accumulator):可用於乘、除、輸入/輸出等操作(在乘除指令中指定用來存放操作數)
BX稱為基地址寄存器(Base Register):在計算存儲器地址時,可作為基址寄存器使用。
CX稱為計數寄存器(Count Register):用來保存計數值,如在移位指令、循環指令和串處理指令中用作隱含的計數器(當移多位時,要用CL來指明移位的位數)。
DX在作雙字長運算時,可把DX和AX組合在一起存放一個雙字長數,DX用來存放高16位數據。此外,對某些I/O操作,DX可用來存放I/O的端口地址。DX稱為數據寄存器(Data Register)。在進行乘、除運算時,它可作為默認的操作數參與運算,也可用於存放I/O的端口地址。
在16位CPU中,AX、BX、CX和DX不能作為基址和變址寄存器來存放存儲單元的地址,但在32位CPU中,其32位寄存器EAX、EBX、ECX和EDX不僅可傳送數據、暫存數據保存算術邏輯運算結果,而且也可作為指針寄存器,所以,這些32位寄存器更具有通用性。
2、變址寄存器
32位CPU有2個32位通用寄存器ESI和EDI。其低16位對應先前CPU中的SI和DI,對低16位數據的存取,不影響高16位的數據。寄存器ESI、EDI、SI和DI稱為變址寄存器(Index Register),它們主要用於存放存儲單元在段內的偏移量,用它們可實現多種存儲器操作數的尋址方式,為以不同的地址形式訪問存儲單元提供方便。變址寄存器不可分割成8位寄存器。作為通用寄存器,也可存儲算術邏輯運算的操作數和運算結果。它們可作一般的存儲器指針使用。在字符串操作指令的執行過程中,對它們有特定的要求,而且還具有特殊的功能。
3、指針寄存器
32位CPU有2個32位通用寄存器EBP和ESP。其低16位對應先前CPU中的SBP和SP,對低16位數據的存取,不影響高16位的數據。
寄存器EBP、ESP、BP和SP稱為指針寄存器(Pointer Register),主要用於存放堆棧內存儲單元的偏移量,用它們可實現多種存儲器操作數的尋址方式,為以不同的地址形式訪問存儲單元提供方便。指針寄存器不可分割成8位寄存器。作為通用寄存器,也可存儲算術邏輯運算的操作數和運算結果。
它們主要用於訪問堆棧內的存儲單元,並且規定:
BP為基指針(Base Pointer)寄存器,用它可直接存取堆棧中的數據;
SP為堆棧指針(Stack Pointer)寄存器,用它只可訪問棧頂。
4、段寄存器
段寄存器是根據內存分段的管理模式而設置的。內存單元的物理地址由段寄存器的值和一個偏移量組合而成的,這樣可用兩個較少位數的值組合成一個可訪問較大物理空間的內存地址。
CPU內部的段寄存器:
CS——代碼段寄存器(Code Segment Register),其值為代碼段的段值;
DS——數據段寄存器(Data Segment Register),其值為數據段的段值;
ES——附加段寄存器(Extra Segment Register),其值為附加數據段的段值;
SS——堆棧段寄存器(Stack Segment Register),其值為堆棧段的段值;
FS——附加段寄存器(Extra Segment Register),其值為附加數據段的段值;
GS——附加段寄存器(Extra Segment Register),其值為附加數據段的段值。
在16位CPU系統中,它只有4個段寄存器,所以,程序在任何時刻至多有4個正在使用的段可直接訪問;在32位微機系統中,它有6個段寄存器,所以,在此環境下開發的程序最多可同時訪問6個段。
32位CPU有兩個不同的工作模式:實模式和保護模式。在每種模式下,段寄存器的作用是不同的。有關規定簡單描述如下:
實模式: 前4個段寄存器CS、DS、ES和SS與先前CPU中的所對應的段寄存器的含義完全一致,內存單元的邏輯地址仍為“段值:偏移量”的形式。為訪問某內存段內的數據,必須使用該段寄存器和存儲單元的偏移量。
保護模式: 在此模式下,情況要復雜得多,裝入段寄存器的不再是段值,而是稱為“選擇子”(Selector)的某個值。
5、指令指針寄存器
32位CPU把指令指針擴展到32位,並記作EIP,EIP的低16位與先前CPU中的IP作用相同。指令指針EIP、IP(Instruction Pointer)是存放下次將要執行的指令在代碼段的偏移量。在具有預取指令功能的系統中,下次要執行的指令通常已被預取到指令隊列中,除非發生轉移情況。所以,在理解它們的功能時,不考慮存在指令隊列的情況。在實方式下,由於每個段的最大范圍為64K,所以,EIP中的高16位肯定都為0,此時,相當於只用其低16位的IP來反映程序中指令的執行次序。
6、標志寄存器
6.1 運算結果標志位
6.1.1 進位標志CF(Carry Flag)
進位標志CF主要用來反映運算是否產生進位或借位。如果運算結果的最高位產生了一個進位或借位,那麼,其值為1,否則其值為0。使用該標志位的情況有:多字(字節)數的加減運算,無符號數的大小比較運算,移位操作,字(字節)之間移位,專門改變CF值的指令等。
6.1.2 奇偶標志PF(Parity Flag)
奇偶標志PF用於反映運算結果中“1”的個數的奇偶性。如果“1”的個數為偶數,則PF的值為1,否則其值為0。利用PF可進行奇偶校驗檢查,或產生奇偶校驗位。在數據傳送過程中,為了提供傳送的可靠性,如果采用奇偶校驗的方法,就可使用該標志位。
6.1.3 輔助進位標志AF(Auxiliary Carry Flag)
在發生下列情況時,輔助進位標志AF的值被置為1,否則其值為0:
(1)、在字操作時,發生低字節向高字節進位或借位時;
(2)、在字節操作時,發生低4位向高4位進位或借位時。
對以上6個運算結果標志位,在一般編程情況下,標志位CF、ZF、SF和OF的使用頻率較高,而標志位PF和AF的使用頻率較低。
6.1.4 零標志ZF(Zero Flag)
零標志ZF用來反映運算結果是否為0。如果運算結果為0,則其值為1,否則其值為0。在判斷運算結果是否為0時,可使用此標志位。
6.1.5 符號標志SF(Sign Flag)
符號標志SF用來反映運算結果的符號位,它與運算結果的最高位相同。在微機系統中,有符號數采用補碼表示法,所以,SF也就反映運算結果的正負號。運算結果為正數時,SF的值為0,否則其值為1。
6.1.6 溢出標志OF(Overflow Flag)
溢出標志OF用於反映有符號數加減運算所得結果是否溢出。如果運算結果超過當前運算位數所能表示的范圍,則稱為溢出,OF的值被置為1,否則,OF的值被清為0。
6.2 狀態控制標志位
狀態控制標志位是用來控制CPU操作的,它們要通過專門的指令才能使之發生改變。
6.2.1 追蹤標志TF(Trap Flag)
當追蹤標志TF被置為1時,CPU進入單步執行方式,即每執行一條指令,產生一個單步中斷請求。這種方式主要用於程序的調試。指令系統中沒有專門的指令來改變標志位TF的值,但程序員可用其它辦法來改變其值。
6.2.2 中斷允許標志IF(Interrupt-enable Flag)
中斷允許標志IF是用來決定CPU是否響應CPU外部的可屏蔽中斷發出的中斷請求。但不管該標志為何值,CPU都必須響應CPU外部的不可屏蔽中斷所發出的中斷請求,以及CPU內部產生的中斷請求。具體規定如下:
(1)、當IF=1時,CPU可以響應CPU外部的可屏蔽中斷發出的中斷請求;
(2)、當IF=0時,CPU不響應CPU外部的可屏蔽中斷發出的中斷請求。
CPU的指令系統中也有專門的指令來改變標志位IF的值。
6.2.3 方向標志DF(Direction Flag)
方向標志DF用來決定在串操作指令執行時有關指針寄存器發生調整的方向
6.3 32位標志寄存器增加的標志位
6.3.1 I/O特權標志IOPL(I/O Privilege Level)
I/O特權標志用兩位二進制位來表示,也稱為I/O特權級字段。該字段指定了要求執行I/O指令的特權級。如果當前的特權級別在數值上小於等於IOPL的值,那麼,該I/O指令可執行,否則將發生一個保護異常。
6.3.2 嵌套任務標志NT(Nested Task)
嵌套任務標志NT用來控制中斷返回指令IRET的執行。具體規定如下:
(1)、當NT=0,用堆棧中保存的值恢復EFLAGS、CS和EIP,執行常規的中斷返回操作;
(2)、當NT=1,通過任務轉換實現中斷返回。
6.3.3 重啟動標志RF(Restart Flag)
重啟動標志RF用來控制是否接受調試故障。規定:RF=0時,表示“接受”調試故障,否則拒絕之。在成功執行完一條指令後,處理機把RF置為0,當接受到一個非調試故障時,處理機就把它置為1
6.3.4 虛擬8086方式標志VM(Virtual 8086 Mode)
如果該標志的值為1,則表示處理機處於虛擬的8086方式下的工作狀態,否則,處理機處於一般保護方式下的工作狀態。
二、匯編語言
任何一個操作系統的源代碼中都少不了匯編語言,由於目前教學大都在Windows平台上進行,因此大家一般較熟悉的是Intel的匯編語法,但在Linux內核代碼中使用的卻是AT&T的匯編。AT&T匯編與Intel匯編有幾點不同:
1)前綴:Intel匯編語法中,寄存器和立即數沒有前綴,但AT&T匯編語法中,寄存器前綴為“%”,立即數前綴為“$”
例:
INTEL AT&T
MOV EAX,1 movl $1,%eax
2)操作數方向:兩種匯編操作數方向正好相反,Intel匯編中第一個操作數為目的操作數,第二個為源操作數;而AT&T中第一個為源操作數,第二個為目的操作數
例:
INTEL AT&T
MOV EAX,EBX movl %ebx,%eax
3)操作數位寬:Intel匯編中,由特定字符指定操作數位寬,如用“BYTE PTR”,“WORD PTR”來表示;AT&T中,有操作碼最後一個字符來指定操作數位寬
例:
INTEL AT&T
mov al, bl movb %bl,%al
mov ax,bx movw %bx,%ax
mov eax, dword ptr movl (%ebx), %eax
4)間接尋址方式:INTEL 中基地址使用“[”、“] ”,而在AT&T 中使用“(”、“) ”;另外處理復雜操作數的 語法也不同, INTEL 為Segreg:[base+index*scale+disp],而在AT&T 中為 %segreg:disp(base,index,sale),其中segreg,index,scale,disp都是可選的,在指定 index而沒有顯式指定Scale的情況下使用默認值1。Scale和disp不需要加前綴“&”
例:
INTEL AT&T
Instr instr
foo,segreg:[base+index*scale+disp] %segreg:disp(base,index,scale),foo
5)大小寫:Intel格式的指令使用大寫字母,而AT&T格式的使用小寫字母
例:
INTEL AT&T
MOV EAX,EBX movl %ebx,%eax
6)指令: Intel匯編與AT&T匯編指令基本相同,差別僅在語法上。關於每條指令的語法在此不再贅述,具體可參考技術手冊
三、Makefile
當我們拿到上百M的內核代碼時,往往會手足無措,不知從何看起。這時,一些有經驗的朋友可能會給你如下建議:從makefile看起!
那麼,什麼是makefile?或許很多Winodws的程序員都不知道這個東西,因為那些Windows的IDE都為你做了這個工作,有些計算機學習者(當然只是極少數)只會用某一種開發軟件,如VS,Eclipse或更老一些的VC等,每次編好程序之後點一下某個按鈕(比如綠色三角形的按鈕,大家懂的)就OK了,但後台究竟如何工作卻不知所以然。竊以為,要做一個好的和professional的程序員,makefile可以不精通,但還是要懂的。
具體makefile語法與用法,網上有很多資料可以查,以後也會發博詳細談到,這裡不再贅述!
以上只是蜻蜓點水,不過由於內核涉及到的知識面非常廣泛,所以建議對程序編譯、連接、裝載的細節,操作系統理論,計算機系統體系結構,數據結構與算法等都有一定的涉獵。呃,當然C和匯編是必須要掌握滴,拿到一本武功秘籍,至少要先識字吧 。。。