C語言在Linux系統中的重要性自然是無與倫比、不可替代,所以我寫Linux江湖系列不可能不提C語言。C語言是我的啟蒙語言,感謝C語言帶領我進入了程序世界。雖然現在不靠它吃飯,但是仍免不了經常和它打交道,特別是在Linux系統下。
Linux系統中普遍使用的是GNU-C,這裡有一份Gnu-C語言手冊.pdf。The GNU C Reference Manual的主頁在這裡:http://www.gnu.org/software/gnu-c-manual/。C語言的內核極其緊湊,該手冊總共只有91頁,去掉目錄、附錄和索引後就只有70頁。我一般一個多小時就可以將其從頭至尾復習一遍。我曾有過將其翻譯成中文的想法,後來還是放棄了。翻譯這種字斟句酌的事情還是讓別人來干吧。我只寫寫我自己的感悟。
感悟一:C語言標准干不過GNU擴展
最近為了研究X Window的底層協議,開始嘗試使用XCB編程。當我打開XCB的頭文件的時候,我被大量的__restrict__關鍵字驚呆了,好在有GNU C語言手冊為我答疑解惑。__restrict__又是一個GNU擴展的關鍵字,後面我會詳細講解該關鍵字的用途。其實C語言的C99標准中已經引入了restrict關鍵字,沒有前後的下劃線,但是在大量的開源代碼中,使用最普遍的還是GNU的擴展,而不是C語言標准。
和restrict關鍵字有相同命運的還有inline、_Complex等,它們都是在C99標准中引入的關鍵字,但是其實在C99標准出來之前,GNU C中早就有了__inline__、__complex__等擴展關鍵字。還記得多年前我學習Linux 0.11版的源代碼時,看到大量的__inline__曾經疑惑不已,不知道為什麼Linus在91年就能用上了如此先進的語言功能,後來才知道,這是GNU的擴展關鍵字。
C語言的標准有C89和C99,使用GCC的時候甚至要顯示指定-std=c99才能全面支持C99標准,所以在開源界,大家還是喜歡首選GNU的擴展關鍵字。比如__inline__、__complex__和__restrict__。總而言之,C語言標准干不過GNU擴展。
下面來看看__restrict__的真正含義。還記得CSDN上曾經載過一篇文章《為什麼有些語言會比別的快》,其中提到“很長一段時間,相同的兩個程序在Fortran和C(或者C++)中運行,Fortran會快一些,因為Fortran的優化做的更好。這是真的,就算C語言和Fortran的編譯器用了相同的代碼生成器也是一樣。這個不同不是因為Fortran的某種特性,事實上恰恰相反,是因為Fortran不具備的特性。”這是因為C語言中的指針給編譯器的優化帶來了困難,文章中繼續說道:“問題就來了。這些指針可以代替任何內存地址。更重要的是,他們可以重疊。輸出數組的內存地址也可以同時是輸入數組的。甚至可以部分重疊,輸出數組可以覆蓋一個輸入數組的一半。這對編譯器優化來說是個大問題,因為之前基於數組的優化不再適用。特別的,添加元素的順序也成問題,如果輸出重疊的數組,計算的結果會變得不確定,取決於輸出元素的動作是發生在元素被覆蓋之前還是之後。”
有了__restrict__,C語言的該問題將不復存在。用__restrict__修飾一個指針後,①該指針只能在定義的時候被初始化;②不會再有別的指針指向該指針指向的內存,因此編譯器可以對算法進行優化。如下代碼:
復制代碼代碼如下:
int * __restrict__ p = (int*)malloc(100*sizeof(int));
指針p有__restrict__關鍵字修飾,所以它只能在定義的時候被初始化,以後不能賦值,而沒有__restrict__修飾的指針,可以隨時賦值,如下:
復制代碼代碼如下:
int arr[100];
int* pArr;
pArr = arr;
指針pArr沒有被__restrict__關鍵字修飾,所以可以將數組的首地址賦值給它。
比如我們定義一個函數對兩塊數據進行操作,結果放入第3塊內存,如下:
復制代碼代碼如下:
void func1(void* p1, void* p2, void* p3, int size){
for(int i=0; i<size; i++){
p3[i] = p1[i] + p2[i];
}
}
很顯然,由於編譯器沒辦法判斷指針p1、p2、p3指向的內存是否重疊,所以無法進行優化,加上__restrict__關鍵字後,如下:
復制代碼代碼如下:
void func1(void* __restrict__ p1, void* __restrict__ p2, void* __restrict__ p3, int size){
for(int i=0; i<size; i++){
p3[i] = p1[i] + p2[i];
}
}
相當於明確告訴編譯器這幾塊內存不會重疊,所以編譯器就可以放心大膽對程序進行優化。
另一個關鍵字是_Complex,C99才引入,而且需要包含<complex.h>頭文件。其實在GNU C中,早就有__complex__、__real__、__imag__等擴展關鍵字。如下代碼:
復制代碼代碼如下:
#include <stdlib.h>
#include <stdio.h></p>
<p>int main(){
__complex__ a = 3 + 4i;
__complex__ b = 5 + 6i;
__complex__ c = a + b;
__complex__ d = a * b;
__complex__ e = a / b;
printf("a + b = %f + %fi\n", __real__ c, __imag__ c);
printf("a * b = %f + %fi\n", __real__ d, __imag__ d);
printf("a / b = %f + %fi\n", __real__ e, __imag__ e);
return 0;
}
可以看到,在C語言中也可以直接對復數進行計算。數值計算再也不是Fortran的專利。
感悟二:指針和數組還真是不一樣
從學C語言開始,老師就教導我們說指針和數組是一樣的,它們可以用同樣的方式進行操作。而事實上,指針和數組還是有差別的。直到多年後讀《C專家編程》,才直到所謂指針和數組一樣是一個美麗的錯誤,只是因為在《The C Programming Language》這本書裡,把“作為函數參數時,指針和數組一樣”這樣一句話前後分開分別印到了兩頁而已。
比如,指針不保存數據的長度信息,而數組有,如下代碼:
復制代碼代碼如下:
#include <stdlib.h>
#include <stdio.h></p>
<p>int main(){
int* p = (int*)malloc(100*sizeof(int));
int arr[100] = {0};
printf("The size of p: %d\n", sizeof(p));
printf("The size of arr: %d\n", sizeof(arr));
return 0;
}
這段代碼的運行結果為:
復制代碼代碼如下:
The size of p: 8
The size of arr: 400
我們經常可以使用如下的代碼片段來獲得一個數組中有多少個元素,如下:
復制代碼代碼如下:
int arr[100];
size_t length = sizeof(arr)/sizeof(int);
但是,當使用數組作為函數的參數的時候,數組會退化成指針。如下代碼:
復制代碼代碼如下:
#include <stdlib.h>
#include <stdio.h></p>
<p>void test_array(int arr[]){
printf("The size of arr in function: %d\n", sizeof(arr));
return;
}</p>
<p>int main(){
int arr[100] = {0};
printf("The size of arr in main: %d\n", sizeof(arr));
test_array(arr);
return 0;
}
這段代碼的運行結果為:
復制代碼代碼如下:
The size of arr in main: 400
The size of arr in function: 8
感悟三:C語言中的不完全類型(Incomplete Types)
在GNU C中可以定義不完全類型,不完全類型主要有兩種,一種是空的結構,一種是空的數組,比如:
復制代碼代碼如下:
struct point;
char name[0];
空的結構不能定義變量,只能使用空結構的指針。空結構可以在後面再將它補充完整,如下:
復制代碼代碼如下:
struct point{
int x,y;
};
空結構在定義鏈表的時候經常用到,如下:
復制代碼代碼如下:
struct linked_list{
struct linked_list* next;
int x;
/*other elements here perhaps */
}
struct linked_list* head;
還有一種不完全類型就是將一個結構的最後一項定義為一個空的數組,這樣可以用來表示一個可變長度的結構或數組,演示該技術的代碼如下:
復制代碼代碼如下:
#include <stdlib.h>
#include <stdio.h></p>
<p>typedef struct {
int length;
int arr[0];
} incomplete_type;</p>
<p>int main(){
char hello[] = "Hello, world!";
int length = sizeof(hello) / sizeof(char);
incomplete_type* p = (incomplete_type*)malloc(sizeof(int) + length*sizeof(char));
p->length = length;
for(int i=0; i<p->length; i++){
p->arr[i] = hello[i];
}
printf("p->length=%d\n", p->length);
printf("p->arr=%s\n", p->arr);
}
打造C/C++的IDE
後面的內容展示如何將Vim打造成一個半自動的C/C++ IDE。讀過我的Java博客的朋友應該知道,其實我更喜歡用Eclipse。只有在需要寫非常簡單的程序(比如做習題)的情況下,我才會用Vim。這在我的《打造屬於自己的Vim》中有論述。在這篇文章中我展示了怎麼使用Vundle管理插件以及怎麼怎麼閱讀幫助文檔,同時展示了taglist.vim的簡單用法。如果要用Vim來寫C/C++程序,還需要做少許擴展。
第一,安裝以下幾個插件,由於使用Vundle管理插件,所以只需要把插件名寫入.vimrc配置文件,然後運行:BundleInstall即可,如下圖:
分別介紹一下這幾個插件。The-NERD-tree是一個浏覽目錄和文件的插件,可以使用:help NERD_tree.txt查看它的幫助文檔。taglist.vim是浏覽符號以及在符號之間跳轉的插件,使用:help taglist.txt查看它的幫助文檔。a.vim是在源代碼文件和頭文件之間跳轉的插件,不需要幫助文檔,它的命令就是:A。c.vim是提供IDE功能的主要插件,它提供的功能有自動注釋、反注釋、自動插入代碼塊及自動運行,如果安裝了splint,還可以對代碼進行靜態檢查,使用:help csupport.txt查看它的文檔。OmniCppComplete是一個提供自動補全功能的插件,使用:help omnicppcomplete.txt查看它的文檔。
這些插件中,taglist.vim和OmniCppComplete需要ctags軟件的支持,所以需要安裝exuberant-ctags軟件包,在Fedora 20中,只需要使用yum install ctags即可自動安裝。
第二,生成tags數據庫,並將其加入到Vim中。
我們寫C程序的時候,使用到的文件主要存在於兩個地方,一個是我們工作的當前目錄,另外一個是/usr/include。所以要到/usr/include目錄下使用ctags命令生成tags數據庫文件。為了使tags數據庫中包含盡可能多的信息(結構、枚舉、類、函數、宏定義等等),需要指定ctags的參數,如下:
然後將該tags文件的路徑加入到.vimrc配置文件中,同時設置一個鍵盤映射,使得按Ctrl+F12時,在工作目錄中調用ctags命令。如下配置文件的最後兩行:
然後,在使用Vim寫C程序的時候,如果輸入了.、->這樣的元素,則其成員會自動補全。如果輸入的是一個字符串(比如函數名),可以按Ctrl-X Ctrl-O調用自動補全,如下圖:
不僅會彈出候選窗口,而且在最上面的窗口中會顯示函數的完整的簽名,及其所在的文件。這對於我們經常記不全函數名、記不清函數簽名的人來說,已經是莫大的福音了。
taglist.vim和OmniCppComplete插件提供的功能用起來都只需要一個命令,而c.vim提供的命令就比較多了。而且在c.vim的幫助文檔中並沒有列出所有功能的命令,有一個辦法可以學習這些命令,那就是打開GVim,通過GVim菜單中的C/C++菜單來學習c.vim提供的功能和命令。
相比網上其它的將Vim打造成IDE的文章,我的配置比較簡單,基本上只安裝了幾個插件,而沒有做過多的設置。當我需要某個功能的時候,我會使用命令顯式地調用它,所以,稱它為半自動化IDE吧。