您现在的位置： Linux教程網 >> UnixLinux > >> Linux綜合 >> Linux資訊 >> 更多Linux

通用線程：Awk 實例，第 1 部分

　　Awk 是一種非常好的語言，同時有一個非常奇怪的名稱。在本系列（共三篇文章）的第一篇文章中，Daniel Robbins 將使您迅速掌握 awk 編程技巧。隨著本系列的進展，將討論更高級的主題，最後將演示一個真正的高級 awk 演示程序。捍衛 awk 在本系列文章中，我將使您成為精通 awk 的編碼人員。我承認，awk 並沒有一個非常好聽且又非常“時髦”的名字。awk 的 GNU 版本（叫作 gawk）聽起來非常怪異。那些不熟悉這種語言的人可能聽說過 "awk"，並可能認為它是一組落伍且過時的混亂代碼。它甚至會使最博學的 UNIX 權威陷於錯亂的邊緣（使他不斷地發出 "kill -9!" 命令，就象使用咖啡機一樣）。的確，awk 沒有一個動聽的名字。但它是一種很棒的語言。awk 適合於文本處理和報表生成，它還有許多精心設計的特性，允許進行需要特殊技巧程序設計。與某些語言不同，awk 的語法較為常見。它借鑒了某些語言的一些精華部分，如 C 語言、python 和 bash（雖然在技術上，awk 比 python 和 bash 早創建）。awk 是那種一旦學會了就會成為您戰略編碼庫的主要部分的語言。第一個 awk 讓我們繼續，開始使用 awk，以了解其工作原理。在命令行中輸入以下命令： $ awk '{ print }' /etc/passwd 您將會見到 /etc/passwd 文件的內容出現在眼前。現在，解釋 awk 做了些什麼。調用 awk 時，我們指定 /etc/passwd 作為輸入文件。執行 awk 時，它依次對 /etc/passwd 中的每一行執行 print 命令。所有輸出都發送到 stdout，所得到的結果與與執行catting /etc/passwd完全相同。現在，解釋 { print } 代碼塊。在 awk 中，花括號用於將幾塊代碼組合到一起，這一點類似於 C 語言。在代碼塊中只有一條 print 命令。在 awk 中，如果只出現 print 命令，那麼將打印當前行的全部內容。這裡是另一個 awk 示例，它的作用與上例完全相同： $ awk '{ print $0 }' /etc/passwd 在 awk 中，$0 變量表示整個當前行，所以 print 和 print $0 的作用完全一樣。如果您願意，可以創建一個 awk 程序，讓它輸出與輸入數據完全無關的數據。以下是一個示例： $ awk '{ print "" }' /etc/passwd 只要將 "" 字符串傳遞給 print 命令，它就會打印空白行。如果測試該腳本，將會發現對於 /etc/passwd 文件中的每一行，awk 都輸出一個空白行。再次說明， awk 對輸入文件中的每一行都執行這個腳本。以下是另一個示例： $ awk '{ print "hiya" }' /etc/passwd 運行這個腳本將在您的屏幕上寫滿 hiya。:) 多個字段 awk 非常善於處理分成多個邏輯字段的文本，而且讓您可以毫不費力地引用 awk 腳本中每個獨立的字段。以下腳本將打印出您的系統上所有用戶帳戶的列表： $ awk -F":" '{ print $1 }' /etc/passwd 上例中，在調用 awk 時，使用 -F 選項來指定 ":" 作為字段分隔符。awk 處理 print $1 命令時，它會打印出在輸入文件中每一行中出現的第一個字段。以下是另一個示例： $ awk -F":" '{ print $1 $3 }' /etc/passwd 以下是該腳本輸出的摘錄： halt7 operator11 root0 shutdown6 sync5 bin1 ....etc. 如您所見，awk 打印出 /etc/passwd 文件的第一和第三個字段，它們正好分別是用戶名和用戶標識字段。現在，當腳本運行時，它並不理想 -- 在兩個輸出字段之間沒有空格！如果習慣於使用 bash 或 python 進行編程，那麼您會指望 print $1 $3 命令在兩個字段之間插入空格。然而，當兩個字符串在 awk 程序中彼此相鄰時，awk 會連接它們但不在它們之間添加空格。以下命令會在這兩個字段中插入空格： $ awk -F":" '{ print $1 " " $3 }' /etc/passwd 以這種方式調用 print 時，它將連接 $1、" " 和 $3，創建可讀的輸出。當然，如果需要的話，我們還可以插入一些文本標簽： $ awk -F":" '{ print "username: " $1 "\t\tuid:" $3" }' /etc/passwd 這將產生以下輸出： username: halt uid:7 username: operator uid:11 username: root uid:0 username: shutdown uid:6 username: sync uid:5 username: bin uid:1 ....etc. 外部腳本將腳本作為命令行自變量傳遞給 awk 對於小的單行程序來說是非常簡單的，而對於多行程序，它就比較復雜。您肯定想要在外部文件中撰寫腳本。然後可以向 awk 傳遞 -f 選項，以向它提供此腳本文件： $ awk -f myscript.awk myfile.in

將腳本放入文本文件還可以讓您使用附加 awk 功能。例如，這個多行腳本與前面的單行腳本的作用相同，它們都打印出 /etc/passwd 中每一行的第一個字段： BEGIN { FS=":" } { print $1 } 這兩個方法的差別在於如何設置字段分隔符。在這個腳本中，字段分隔符在代碼自身中指定（通過設置 FS 變量），而在前一個示例中，通過在命令行上向 awk 傳遞 -F":" 選項來設置 FS。通常，最好在腳本自身中設置字段分隔符，只是因為這表示您可以少輸入一個命令行自變量。我們將在本文的後面詳細討論 FS 變量。 BEGIN 和 END 塊通常，對於每個輸入行，awk 都會執行每個腳本代碼塊一次。然而，在許多編程情況中，可能需要在 awk 開始處理輸入文件中的文本之前執行初始化代碼。對於這種情況，awk 允許您定義一個 BEGIN 塊。我們在前一個示例中使用了 BEGIN 塊。因為 awk 在開始處理輸入文件之前會執行 BEGIN 塊，因此它是初始化 FS（字段分隔符）變量、打印頁眉或初始化其它在程序中以後會引用的全局變量的極佳位置。 awk 還提供了另一個特殊塊，叫作 END 塊。awk 在處理了輸入文件中的所有行之後執行這個塊。通常，END 塊用於執行最終計算或打印應該出現在輸出流結尾的摘要信息。規則表達式和塊 awk 允許使用規則表達式，根據規則表達式是否匹配當前行來選擇執行獨立代碼塊。以下示例腳本只輸出包含字符序列 foo 的那些行： /foo/ { print } 當然，可以使用更復雜的規則表達式。以下腳本將只打印包含浮點數的行： /[0-9]+\.[0-9]*/ { print } 表達式和塊還有許多其它方法可以選擇執行代碼塊。我們可以將任意一種布爾表達式放在一個代碼塊之前，以控制何時執行某特定塊。僅當對前面的布爾表達式求值為真時，awk 才執行代碼塊。以下示例腳本輸出將輸出其第一個字段等於 fred 的所有行中的第三個字段。如果當前行的第一個字段不等於 fred，awk 將繼續處理文件而不對當前行執行 print 語句： $1 == "fred" { print $3 } awk 提供了完整的比較運算符集合，包括 "=="、"<"、">"、"<="、">=" 和 "!="。另外，awk 還提供了 "~" 和 "!~" 運算符，它們分別表示“匹配”和“不匹配”。它們的用法是在運算符左邊指定變量，在右邊指定規則表達式。如果某一行的第五個字段包含字符序列 root，那麼以下示例將只打印這一行中的第三個字段： $5 ~ /root/ { print $3 } 條件語句 awk 還提供了非常好的類似於 C 語言的 if 語句。如果您願意，可以使用 if 語句重寫前一個腳本： { if ( $5 ~ /root/ ) { print $3 } } 這兩個腳本的功能完全一樣。第一個示例中，布爾表達式放在代碼塊外面。而在第二個示例中，將對每一個輸入行執行代碼塊，而且我們使用 if 語句來選擇執行 print 命令。這兩個方法都可以使用，可以選擇最適合腳本其它部分的一種方法。以下是更復雜的 awk if 語句示例。可以看到，盡管使用了復雜、嵌套的條件語句，if 語句看上去仍與相應的 C 語言 if 語句一樣： { if ( $1 == "foo" ) { if ( $2 == "foo" ) { print "uno" } else { print "one" } } else if ($1 == "bar" ) { print "two" } else { print "three" } } 使用 if 語句還可以將代碼： ! /matchme/ { print $1 $3 $4 } 轉換成： { if ( $0 !~ /matchme/ ) { print $1 $3 $4 } } 這兩個腳本都只輸出不包含 matchme 字符序列的那些行。此外，還可以選擇最適合您的代碼的方法。它們的功能完全相同。 awk 還允許使用布爾運算符 ""（邏輯與）和 "&&"（邏輯或），以便創建更復雜的布爾表達式： ( $1 == "foo" ) && ( $2 == "bar" ) { print } 這個示例只打印第一個字段等於 foo 且第二個字段等於 bar 的那些行。數值變量！至今，我們不是打印字符串、整行就是特定字段。然而，awk 還允許我們執行整數和浮點運算。通過使用數學表達式，可以很方便地編寫計算文件中空白行數量的腳本。以下就是這樣一個腳本： BEGIN { x=0 } /^$/ { x=x+1 } END { print "I found " x " blank lines. :)" } 在 BEGIN 塊中，將整數變量 x 初始化成零。然後，awk 每次遇到空白行時，awk 將執行 x=x+1 語句，遞增 x。處理完所有行之後，執行 END 塊，awk 將打印出最終摘要，指出它找到的空白行數量。字符串化變量 awk 的優點之一就是“簡單和字符串化”。我認為 awk 變量“字符串化”是因為所有 awk 變量在內部都是按字符串形式存儲的。同時，awk 變量是“簡單的”，因為可以對它執行數學操作，且只要變量包含有效數字字符串，awk 會自動處理字符串到數字的轉換步驟。要理解我的觀點，請研究以下這個示例：

x="1.01" # We just set x to contain the *string* "1.01" x=x+1 # We just added one to a *string* print x # Incidentally, these are comments :) awk 將輸出： 2.01 有趣吧！雖然將字符串值 1.01 賦值給變量 x，我們仍然可以對它加一。但在 bash 和 python 中卻不能這樣做。首先，bash 不支持浮點運算。而且，如果 bash 有“字符串化”變量，它們並不“簡單”；要執行任何數學操作，bash 要求我們將數字放到丑陋的 $( ) ) 結構中。如果使用 python，則必須在對 1.01 字符串執行任何數學運算之前，將它轉換成浮點值。雖然這並不困難，但它仍是附加的步驟。如果使用 awk，它是全自動的，而那會使我們的代碼又好又整潔。如果想要對每個輸入行的第一個字段乘方並加一，可以使用以下腳本： { print ($1^2)+1 } 如果做一個小實驗，就可以發現如果某個特定變量不包含有效數字，awk 在對數學表達式求值時會將該變量當作數字零處理。眾多運算符 awk 的另一個優點是它有完整的數學運算符集合。除了標准的加、減、乘、除，awk 還允許使用前面演示過的指數運算符 "^"、模（余數）運算符 "%" 和其它許多從 C 語言中借入的易於使用的賦值操作符。這些運算符包括前後加減（i++、--foo）、加／減／乘／除賦值運算符（ a+=3、b*=2、c/=2.2、d-=6.2）。不僅如此 -- 我們還有易於使用的模／指數賦值運算符（a^=2、b%=4）。字段分隔符 awk 有它自己的特殊變量集合。其中一些允許調整 awk 的運行方式，而其它變量可以被讀取以收集關於輸入的有用信息。我們已經接觸過這些特殊變量中的一個，FS。前面已經提到過，這個變量讓您可以設置 awk 要查找的字段之間的字符序列。我們使用 /etc/passwd 作為輸入時，將 FS 設置成 ":"。當這樣做有問題時，我們還可以更靈活地使用 FS。 FS 值並沒有被限制為單一字符；可以通過指定任意長度的字符模式，將它設置成規則表達式。如果正在處理由一個或多個 tab 分隔的字段，您可能希望按以下方式設置 FS： FS="\t+" 以上示例中，我們使用特殊 "+" 規則表達式字符，它表示“一個或多個前一字符”。如果字段由空格分隔（一個或多個空格或 tab），您可能想要將 FS 設置成以下規則表達式： FS="[[:space:]+]" 這個賦值表達式也有問題，它並非必要。為什麼？因為缺省情況下，FS 設置成單一空格字符，awk 將這解釋成表示“一個或多個空格或 tab”。在這個特殊示例中，缺省 FS 設置恰恰是您最想要的！復雜的規則表達式也不成問題。即使您的記錄由單詞 "foo" 分隔，後面跟著三個數字，以下規則表達式仍允許對數據進行正確的分析： FS="foo[0-9][0-9][0-9]" 字段數量接著我們要討論的兩個變量通常並不是需要賦值的，而是用來讀取以獲取關於輸入的有用信息。第一個是 NF 變量，也叫做“字段數量”變量。awk 會自動將該變量設置成當前記錄中的字段數量。可以使用 NF 變量來只顯示某些輸入行： NF == 3 { print "this particular record has three fields: " $0 } 當然，也可以在條件語句中使用 NF 變量，如下： { if ( NF > 2 ) { print $1 " " $2 ":" $3 } } 記錄號記錄號 (NR) 是另一個方便的變量。它始終包含當前記錄的編號（awk 將第一個記錄算作記錄號 1）。迄今為止，我們已經處理了每一行包含一個記錄的輸入文件。對於這些情況，NR 還會告訴您當前行號。然而，當我們在本系列以後部分中開始處理多行記錄時，就不會再有這種情況，所以要注意！可以象使用 NF 變量一樣使用 NR 來只打印某些輸入行： (NR < 10 ) (NR > 100) { print "We are on record number 1-9 or 101+" } 另一個示例： { #skip header if ( NR > 10 ) { print "ok, now for the real information!" } } awk 提供了適合各種用途的附加變量。我們將在以後的文章中討論這些變量。現在已經到了初次探索 awk 的尾聲。隨著本系列的開展，我將演示更高級的 awk 功能，我們將用一個真實的 awk 應用程序作為本系列的結尾。同時，如果急於學習更多知識，請參考以下列出的參考資料。

復雜的規則表達式也不成問題。即使您的記錄由單詞 "foo" 分隔，後面跟著三個數字，以下規則表達式仍允許對數據進行正確的分析： FS="foo[0-9][0-9][0-9]" 字段數量接著我們要討論的兩個變量通常並不是需要賦值的，而是用來讀取以獲取關於輸入的有用信息。第一個是 NF 變量，也叫做“字段數量”變量。awk 會自動將該變量設置成當前記錄中的字段數量。可以使用 NF 變量來只顯示某些輸入行： NF == 3 { print "this particular record has three fields: " $0 } 當然，也可以在條件語句中使用 NF 變量，如下： { if ( NF > 2 ) { print $1 " " $2 ":" $3 } } 記錄號記錄號 (NR) 是另一個方便的變量。它始終包含當前記錄的編號（awk 將第一個記錄算作記錄號 1）。迄今為止，我們已經處理了每一行包含一個記錄的輸入文件。對於這些情況，NR 還會告訴您當前行號。然而，當我們在本系列以後部分中開始處理多行記錄時，就不會再有這種情況，所以要注意！可以象使用 NF 變量一樣使用 NR 來只打印某些輸入行： (NR < 10 ) (NR > 100) { print "We are on record number 1-9 or 101+" } 另一個示例： { #skip header if ( NR > 10 ) { print "ok, now for the real information!" } } awk 提供了適合各種用途的附加變量。我們將在以後的文章中討論這些變量。現在已經到了初次探索 awk 的尾聲。隨著本系列的開展，我將演示更高級的 awk 功能，我們將用一個真實的 awk 應用程序作為本系列的結尾。同時，如果急於學習更多知識，請參考以下列出的參考資料。

(NR < 10 ) (NR > 100) { print "We are on record number 1-9 or 101+" } 另一個示例： { #skip header if ( NR > 10 ) { print "ok, now for the real information!" } } awk 提供了適合各種用途的附加變量。我們將在以後的文章中討論這些變量。現在已經到了初次探索 awk 的尾聲。隨著本系列的開展，我將演示更高級的 awk 功能，我們將用一個真實的 awk 應用程序作為本系列的結尾。同時，如果急於學習更多知識，請參考以下列出的參考資料。