joe's joy&joke: 4月 2013

本編主要是參考 Beginning Python 的 page242頁所寫的
regular expression 正規表示式在wiki的介紹

"." 點可以匹配任何字符(除了換行字符外),如'.ython'可以匹配'+ython','kython','python',或' ython'
但是不能匹配'xdython'或'ython',因為"." 只能匹配單一字元,不匹配兩個字元或沒有字元.
因為它匹配任何單一字符(除了換行字符),句號"."又稱為"萬用字元"(wildcard)
"\"跳脫字元,跳脫字元主要用來跳脫一些特殊字元如".",如果我們要匹配'python.org',我們不能用'python.org',這樣會變成匹配'pythonzorg'或'pythonqorg',,,等等的任何一個字元介於python org之間.因為如上所述 "." 是 "萬用字元"會變成匹配任何字元,必須使用'python\\.org',
如果你嫌要打上兩條斜線太麻煩,那可以使用r'python\.org',在兩點前面加一個r,它告訴 python interpreter 這是raw string,你可以少打一條斜線.

character set 字集:如果你要更有效的匹配character( 字符 ) 你可以建立一個character set

(字集) ,使用 [ ] 中括號.

舉例:

[ pj ]ython將會匹配 python 和 jython.

[a-z]會匹配所有小寫的英文字母.a跟z中間是 -

[a-zA-Z0-9]會匹配大小寫和數字

[^abc]這是指匹配任何字母 "除了 abc ",加上^可用來避開匹配
在[ ]裡如果有 .*,,,等會被regular expression判別為萬用字元的,如果要把它當一般字元還是必須先放 \在前---->[\.\*]

character set 字集可以讓你獨立的匹配字詞,但如果你只是想要匹配 'python' 和 'perl'這兩個字

串呢?你可以使用character set和wildcard設定特定的模式(pattern).

但你也可以使用特殊的字詞來代替:

使用管線 ' | ',所以你的模式就是 'python|perl'

但如果你不想用一整個詞彙來做模式,你可以使用小括號( )來建立一個子模式(subpattern)

'python|perl'可以用'p(ython|erl)'來代替.(注意:子模式也可以以單一字詞來用)

"?"在子模式(subpattern)後面增加一個"?",這會讓子模式(subpattern)成為可選擇性的.
舉例: r'(http://)?(www\.)?python\.org' 會匹配
'http://www.python.org'
'http://python.org'
'www.python.org'
'python.org'
有幾件事是要注意的
\. 使用\去避開wildcards
r'() ' 使用raw string去減少 \ 的使用
每個可選擇的子模式被小括號()包括
每個可選擇的子模式也許會出現也許不會,都是各個獨立的.
(pattern)? 問號讓子模式可以出現一次或無
(pattern)* 星號是重複零次或更多次
(pattern)+ 加號是重複一次或更多次
(pattern){m,n} 重複m到n次,如:r'w{3,4}\.python\.org'只匹配'www.python.org' 和 'wwww.python.org'

如果你只想匹配部分字串而不是全部,你可以使用'^'來避開你不想匹配的部分.
舉例: '^ht+p' 會匹配'http://python.org'和'httttttttttttttttttttp://python.org',因為 h 前面使用 ^ 避開了,而 t後面用了 + (加號是重複一次或更多次),所以 t可以一直增加.
python在regular expression 模組裡有建立很多函數可以使用請參考這裡
re.match可以匹配字串中的第一個字