基本正則運算式

認識元字符： ^[](){}.*?\|+$ 以及在某些時候出現的 –

我知道它們看上去很恐怖，但是一旦你了解它們就會知道它們是很可愛的符號。

認識元字符： ^[](){}.*?\|+$ 以及在某些時候出現的 –
我知道它們看上去很恐怖，但是一旦你了解它們就會知道它們是很可愛的符號。

行定位點: ‘^’ 和 ‘$’
‘^’ (讀成：caret) 和 ‘$’ (讀成：dollar) 這兩個元字符分別代表一行文字的開始和結束。就象我前面舉的例子，正則運算式mike會匹配字符序列m – i – k – e，可是它會匹配一行中的所有位置 (比如，它會匹配 “I’m mike”或者 “carmike”)。 ‘^’字符被用來限定匹配行的開始，因此^mike 將只會尋找以mike開始的行。同樣，運算式mike$將只會尋找m – i – k – e在一行末尾的(當然還是會匹配 ‘carmike’)。

如果我們聯合使用這兩個行定位點字符，我們可以搜索在多行文字中尋找包含的特殊字符串序列。比如：運算式 ^mike$ 將只會匹配佔有單獨一行的單詞mike，一個字不多一個字不少。同樣，運算式 ^$ 對於發現空行（一行開始就是本行結束的那種）很有用。

字符分類: ‘[]’
一對方括弧被稱為一個字符分類, 你可以用來匹配任何一個或多個字符。假設你想匹配單詞 ‘gray’，同時也想找一下被拼寫成 ‘grey’的單詞。使用一個字符分類將允許你匹配這兩者 — 正則運算式 gr[ea]y 被解讀成 “匹配這樣的字符串 – 一個g, 跟著是r, 跟著或者是一個e或者是一個a, 跟著一個y”。

如果你用 [^ … ] 代替 [ … ], 這個分類將匹配後面列出來字符以外的任何字符。首字符 ^ 表示“否定"列表 – 不同於你列出所有希望包含的字符，你是去列出所有不想包含的字符。注意在這裡使用的^ (caret) 字符，它在字符分類方式之外使用表示另外的意思 – 用來匹配文字行的開始（見文章前面部分）。

字符分類中的元字符: ‘-’
在一個字符分類中，字符分類中的元字符 ‘-’ (dash) 用來指出一個字符範圍。考慮字符分類 [01234567890abcdefABCDEF]，採用’-’的話我們可以這樣寫[0-9a-fA-F]，方便了不少吧。有一點大家要注意的，這個’-’符號只有用一個字符分類中才被認為是元字符，在其他位置，它只是簡單的匹配普通的’-’字符，沒有任何其他意義。

但是且慢，我看到有人舉手質疑。假如在一個字符分類裏面，’-’字符做為第一個字符出現的時候，會把它認為成什麼呢？比如[-A-F]，問題很好，注意：這是一個例外，如果在字符分類中，’-’字符是第一個出現的字符，那我們把它當作普通字符而不是元字符處理（因為實際上它不可能表示一個字符範圍，範圍需要有開始和結束字符），這個時候它只會匹配一個普通的’-’字符。引申開來，我們再說一個例外：S’?’和’.’在大多數情況下都是正則運算式的元字符，但是有個例外是在字符分類中，當它們在字符分類中的時候（比如在：[-0-9.?]，它們只是代表一個普通字符，唯一的特殊字符（元字符）是0和9中間的’-’）。

用一個句點: ‘.’匹配任何字符
‘.’ 元字符（一般讀成a dot 或者point）是一種匹配任何字符的寫法。在你想在一個字符串的指定位置匹配一個任意字符的時候，它顯得非常可愛。再強調一遍，在字符分類中，’.’就不是一個元字符了。到現在為止，你開始看出一些門道來了吧？哪些是元字符哪些不是元字符在字符分類裏面和外面是不一樣的。

選擇性元字符: ‘|’
‘|’ 元字符（讀成pipe）的意思是“or”。它允許你把多個運算式合成到一個運算式，然後匹配裏面任何單個運算式的結果。這些子錶達式被稱為備選項。

例如：Mike 和 Michael 是兩個獨立的正則運算式，但是Mike|Michael 這樣來寫的話，這個正則運算式匹配任意一個單詞。

圓括弧在這裡可以被用來限製備選的範圍。我們可以使用圓括弧來達到和上面這個正則運算式同樣的目的，同時縮短它長度，正則運算式 Mi(ke|chael) 同樣匹配Mike或者Michael。當然，在實際程式中我還是會用第一種寫法，雖然長了一點，可是更容易理解，因此也更容易維護。

匹配可選項: ‘?’
‘?’ 元字符（讀成：question mark）意味著可選。它放在正則運算式的某個位置的一個字符後面，這個字符允許在匹配結果中出現，也可以不出現。當然，我們可以肯定的是：這個’?’字符只能跟在一個普通字符而不是元字符後面。

如果我想匹配英式或者美式拼法的單詞‘flavor’ ，我會用正則運算式flavou?r，它被解讀成：“匹配一個字符串：f，跟著一個l，跟著一個a，跟著一個v，跟著一個o，跟著一個可選的u，跟著一個r”。

數量符號: ‘+’ and ‘*’
象’?’字符一樣，‘+’ （讀成plus）和‘*’（讀成star）元字符影響前導字符（就是在這個符號前面的字符）可以在匹配字符串中出現的數量（使用前面說的‘?’的話，相當於前導字符可以出現0次或一次）。元字符‘+’ 匹配前面出現的項目一次或更多次，而‘*’ 則表示匹配任何次，包括0次。

如果我想通過在一場足球比賽中解說員說’goal’的聲音次數來統計比分的話，我應該用正則運算式go+al，它可以匹配‘goal’，也可以匹配一些激情主播的‘gooooooooooooooooal’ （但肯定不會是 ‘gal’)。

前面的三個元字符：’?’、’+’、’*’一般又叫做計量符。因為它們影響前面項目的數量。

數量範圍: ‘{}’
‘{最小, 最大}’ 這個元字符序列允許你指定特定項目可以被匹配的最少和最大次數。例如go{1,5}al 可以用來限制我們上面的例子，只匹配1到5次o。同樣的{0,1} 其實就等同於一個’?’元字符。

轉義字符: ‘\’
‘\’ 元字符（讀成：backslash）被用來轉換指定的元字符的含義，以便於你可以把它們當成普通字符來匹配。例如，你打算匹配字符’?’或者’\’，你就可以在它們前面加上一個’\’字符，這樣它們就被轉換成普通字符的含義，就好像這樣寫：‘\?’ or ‘\\’.

如果在一個非元字符前面使用’\’的話，那麼根據你使用正則運算式的語言不同，會有不同的含義，必須參閱相應的手冊。比較普遍採用的是perl相容的正則運算式（PCREs），你可以在這裡查看the perldoc page for perl regular expressions. PCREs用得非常普遍，在PHP、 Ruby和ECMAScript/Javascript還有很多語言中都可以使用。

用圓括弧匹配: ‘()’
大部分正則運算式工具允許你用圓括弧設定一個特定的運算式子集。比如，我們可以用一個正則運算式http://([^/]+)去匹配一個URL的域名部分。下面讓我們把這個正則運算式分解開，看看它是如何工作的。

這個運算式的起始部分非常直白：它必須匹配“h – t – t – p – : – / – /”這樣的字符序列。這個初始序列之後就是圓括弧了，它被用來捕捉符合它們包圍的子錶達式的字符。在現在的例子中，子錶達式是‘[^/]+’，用上面學到的知識，我們知道它實際上是匹配除了‘/’字符以外的任何字符一次到多次。對於一個像是 http://immike.net/blog/Some-blog-post的URL，‘immike.net’ 將會被這個圓括弧裏面的運算式所匹配。

由程式員必須掌握的基本正則運算式

Share on Facebook