您现在的位置： Linux教程網 >> UnixLinux > >> Linux編程 >> Linux編程

Java 正則表達式學習

匹配模式

JDK提供三種匹配模式，分別是：貪婪模式(greedy),勉強模式(reluctant)和占有模式(possessive)，分別對應三種占有量詞，其中貪婪模式是默認的模式，勉強模式通過在表達式後面加一個？來表示。占有模式通過在表達式後面加一個+來表示。

三種模式的含義是什麼呢？

貪婪模式的含義是：盡可能多的匹配，同時也盡量滿足整體匹配。
勉強模式的含義是：盡可能少的匹配，同時也盡量滿足整體匹配。
占有模式的含義是：盡可能多的匹配，如果因為匹配多了導致整理無法匹配，那麼也不會回溯。

比如有個字符串如下：
/m/t/wd/nl/n/p/m/wd/nl/n/p/m/wd/nl/n/p/m/v/n

貪婪模式的表達式匹配：
/m/t.*/nl/n/p/m
此時匹配結果為 /m/t/wd/nl/n/p/m/wd/nl/n/p/m/wd/nl/n/p/m

勉強模式的表達式匹配：
/m/t/.*?/nl/n/p/m
此時匹配結果為 /m/t/wd/nl/n/p/m

/m/t/wdx+?/nl/n/p/m
如果是這樣，那麼就匹配不上了，因為+表示至少要匹配一個，勉強模式，至少也要匹配一個，所以匹配失敗了。

占有模式的表達式匹配：
/m/t.*+/nl/n/p/m 此時無法匹配，因為.*匹配了過多的字符，導致後面無法匹配是上了。

注意：只能對可變的匹配規則使用勉強量詞或者占有量詞。比如X??表示盡量少匹配字符X，而X?卻是默認的貪婪模式，此時是盡量多匹配的含義。再如：X{n}的含義是必須准備匹配n個X ，則此時加上其他量詞均不起作用

環視（預測）

環視是一個比較高級的主題，但是用起來卻是那麼自然。
環視適用於這樣的場景：做正則匹配時，需要了解被匹配部分的前面或者後面，有或者沒有，特定的表達式，而又不因此捕獲（消耗）這些特定的表達式。
如果不使用環視，而是直接使用表達式來判斷，那麼必然會導致這些被匹配的表達式被消耗掉。

舉個例子：假設我要給ILoveYou這句話斷句，原則是出現大寫字母則認為是一個新的單詞。

如果使用這個匹配規則：
\p{Upper}\p{Lower}*[\p{Upper}]?

的話，那麼會消耗掉被匹配的大寫字母。匹配結果會是：
IL
You

這並不符合要求。

解決辦法是使用環視，正則表達式為：
\p{Upper}?\p{Lower}*(?=[\p{Upper}]?)

輸出結果為：
I
Love
You

環視有四種：
(?=X) 表示後面跟著的是正則表達式X，匹配前面的部分時，不會消耗X這一部分，同時也不會捕獲。零寬度正向肯定預測。

(?<=X) 表示前面的是正則表達式X，匹配後面的部分時，不會消耗X這一部分，同時也不會捕獲。零寬度反向肯定預測。

(?!X) 表示後面跟著的不是正則表達式X，匹配前面的部分時，不會消耗X這一部分，同時也不會捕獲。零寬度正向否定預測。

(?!=X) 表示前面的不是正則表達式X，匹配後面的部分時，不會消耗X這一部分，同時也不會捕獲。零寬度反向否定預測。

非捕獲占有型匹配
(?>X) 這個尚未研究清楚。

上一篇文章： Java可見性機制的原理
下一篇文章： RSA 非對稱加密數字簽名數字證書

Linux編程

Java正則表達式示例

Java正則表達式語法

正則表達式基礎及Java使用

Grep 正則表達式學習筆記

Java正則表達式識別中文

Java 正則表達式

proxy_pass與正則表達式

正則表達式，正則

相關文章

正則表達式中awk的學習和使用

Linux初學習之正則表達式和通配符

正則表達式語法速查表

Python的正則表達式

Linux正則表達式

正則表達式和擴展正則表達式

擴展正則表達式

基礎正則表達式

正則表達式的用法

正則表達式之零寬斷言

正則表達式與greb

Python 正則表達式

Linux編程

SHELL編程

PERL編程