您现在的位置： Linux教程網 >> UnixLinux > >> Linux基礎 >> Linux技術

linux學習日記九正則表達式介紹

正則表達式就是處理字符串的方法，它以行為單位來進行字符串的處理行為，正則表達式通過一些特殊符號的輔助，可以讓用戶輕易達到查找、刪除、替換某特定字符串的處理程序。

正則表達式基本上就是一種“表示法”，只要工具程序支持這種表示法，那麼該工具程序就可以利用正則表達式處理字符串。例如vi，grep，awk，sed等。

正則表達式和之前的bash通配符是兩個完全不同的東西，兩者毫無關系，這個要注意下。

# grep [-A] [-B] [--color=auto] ‘string’ filename

-A：後面加數字，為after的意思，除了列出該行，後續的n行也列出

-B：before的意思，不解釋

# dmesg | grep -n -A3 -B2 –color=auto ‘eth’ <== 內核信息

====幾個基本的正則式特殊符號====

特殊符號代表意義 [:alnum:] 代表英文大小寫字符以及數字，亦即 0-9, A-Z, a-z [:alpha:] 代表任何英文大小寫字符，亦即 A-Z, a-z [:blank:] 代表空白鍵與 [Tab] 按鍵兩者 [:cntrl:] 代表鍵盤上面的控制按鍵，亦即包括 CR, LF, Tab, Del.. 等等 [:digit:] 代表數字而已，亦即 0-9 [:graph:] 除了空白字元 (空白鍵與 [Tab] 按鍵) 外的其他所有按鍵 [:lower:] 代表小寫字元，亦即 a-z [:print:] 代表任何可以被列印出來的字元 [:punct:] 代表標點符號 (punctuation symbol)，亦即：” ‘ ? ! ; : # $… [:upper:] 代表大寫字元，亦即 A-Z [:space:] 任何會產生空白的字元，包括空白鍵, [Tab], CR 等等 [:xdigit:] 代表 16 進制的數字類型，因此包括： 0-9, A-F, a-f 的數字與字符

====基礎正則式====

RE 字符意義與范例 ^word 意義：待搜尋的字串(word)在行首！
范例：搜尋行首為 # 開始的那一行，並列出行號

grep -n ‘^#’ regular_express.txt

word$ 意義：待搜尋的字串(word)在行尾！
范例：將行尾為 ! 的那一行列印出來，並列出行號

grep -n ‘!$’ regular_express.txt

. 意義：代表『一定有一個任意字元』的字符！
范例：搜尋的字串可以是 (eve) (eae) (eee) (e e)，但不能僅有 (ee) ！亦即 e 與 e 中間『一定』僅有一個字元，而空白字元也是字元！

grep -n ‘e.e’ regular_express.txt

\ 意義：跳脫字符，將特殊字符的特殊意義去除！
范例：搜尋含有單引號 ‘ 的那一行！

grep -n \’ regular_express.txt

* 意義：重復零個到無窮個的前一個字符
范例：找出含有 (es) (ess) (esss) 等等的字串，注意，因為 * 可以是 0 個，所以 es 也是符合的。另外，因為 * 為重復『前一個字符』的符號，因此，在 * 之前必須要緊接著一個字符喔！例如任意字元則為『.*』！

grep -n ‘ess*’ regular_express.txt

[list] 意義：字元集合的 RE 字符，裡面列出想要擷取的字元！
范例：搜尋含有 (gl) 或 (gd) 的那一行，需要特別留意的是，在 [] 當中『謹代表一個待搜尋的字元』，例如『 a[afl]y 』代表搜尋的字串可以是 aay, afy, aly 即 [afl] 代表 a 或 f 或 l 的意思！

grep -n ‘g[ld]‘ regular_express.txt

[n1-n2] 意義：字元集合裡，列出想要撷取的字元范圍！
范例：搜尋含有任意數字的那一行！需特別留意，在字元集合 [] 中的減號 – 是有特殊意義的，他代表兩個字元之間的所有連續字元！但這個連續與否與 ASCII 編碼有關，因此，你的編碼需要設定正確(在 bash當中，需要確定 LANG與LANGUAGE 的變量是否正確！) 例如所有大寫字元則為 [A-Z]

grep -n ‘[A-Z]‘ regular_express.txt

[^list] 意義：字元集合的 RE 字符，裡面列出不要的字串或范圍！
范例：搜尋的字串可以是 (oog) (ood) 但不能是 (oot) ，那個 ^ 在 [] 內時，代表的意義是『反向選擇』的意思。例如，我不要大寫字元，則為 [^A-Z]。但是，需要特別注意的是，如果以 grep -n [^A-Z] regular_express.txt 來搜尋，卻發現該文件內的所有行都被列出，為什麼？因為這個 [^A-Z] 是『非大寫字元』的意思，因為每一行均有非大寫字元，例如第一行的 “Open Source” 就有 p,e,n,o…. 等等的小寫字

grep -n ‘oo[^t]‘ regular_express.txt

\{n,m\} 意義：連續 n 到 m 個的『前一個 RE 字符』
意義：若為 \{n\} 則是連續 n 個的前一個 RE 字符，
意義：若是 \{n,\} 則是連續 n 個以上的前一個 RE 字符！
范例：在 g 與 g 之間有 2 個到 3 個的 o 存在的字串，亦即 (goog)(gooog)