Linux正則表達式(Regular Expression)主要遵從POSIX BRE或者POSIX ERE標准。什麼是POSIX呢,POSIX Portable Operating System Interface 可移植操作系統接口ERE是BRE的擴展版本,具體更強的處理能力,並增加了一些元字符(metacharactor)。
BRE主要的能力集有:
1) 普通字符(Literal text),如a,b,c等
2)非打印字符,包括TAB,回車,換行,回車換行(WINDOWS)
3)任意字符.
4)字符集,包括單詞型字符([[:alnum:]]),非單詞型字符([^[:alnum:]]),數字([[:digit:]]),非數字([^[:alnum:]]),空格、TAB、換行等空白字符([[:space:]])以及非空白字符([^[:space:]])
5)邊緣匹配符,不管是BRE還是ERE,都只支持匹配行首或行尾,不像perl,還可以匹配單詞首和單詞尾
6)匹配重復次數(Quantifier/Repetition)
7)分組及後向引用
8)多項匹配(Alteration),使用元字符|,該特性只ERE支持,BRE沒有此功能
BRE與ERE似乎對ASCII和UNICODE是否都支持尚待確認;
正前向查找和負前向查找不支持;
正後向查找和負後向查找不支持;
BRE與ERE在能力上區別僅在多項匹配的能力上,其他方面沒有大的差別,主要的區別體現在元字符上。
BRE只定義了4組元字符:
[] 用於在多個字符中選定一個字符進行匹配,[]內可以有-以示范圍,但-本身不是元字符
. 用於匹配任意字符
^ 用於匹配時表示“非”的含義,還有一個用法是匹配行首
$ 用於匹配行尾
ERE在此基礎上增加了3組元字符的定義:
{} 用於表示重復匹配的次數。BRE中只將{}當作普通字符對待,要使用此功能必須加\進行轉義,即“\{\}”
() 用於分組。BRE中只將()當作普通字符對待,要使用此功能必須加\進行轉義,即“\(\)”
| 完全為ERE新增的多項匹配能力定義的,BRE無多項匹配能力,只將|作普通字符對待