Regular Expression

Java での正規表現

Java ではバージョン 1.4 から java.util.regex パッケージが追加され、次のような構文で正規表現が使えるようになりました。


 java.util.regex.Pattern p = java.util.regex.Pattern.compile("a*b");
 java.util.regex.Matcher m = p.matcher("aaaaab");
 boolean b = m.matches();

また簡易版として、 java.lang.String クラスに matches メソッドが追加され、次の表記も可能になりました。


 boolean b = "aaaaab".matches("a*b");

以下は Java での正規表現を表し方の例です(詳しくは言語のリファレンスを御覧下さい)。

. は任意の一文字を表す正規表現
^ は文字列の最初、 $ は文字列の最後を表す正規表現
英字、数字など特殊文字以外は正規表現
[ と ] に囲まれる文字の列は、それらの文字のうちのどれか一文字を表す正規表現で、特に文字クラスと呼ばれます。 A-Zという表現で A から Z までのすべての文字を表します。
[^ と ] に囲まれる文字の列は、それらの文字のどれにも含まれない文字一文字を表す正規表現。これも同様に A-Z の表現が使えます。
\(バックスラッシュ、または円記号)に一文字を加えるとさまざまなものを表します。 \n や \t などは C 言語と同じですが、\d で数 [0-9]、 \D で数以外[^0-9]、 \s で空白[ \t\n\x0B\f\r]を表す記号(タブや改行も含む)、\S で空白以外の文字などを表します。また、 \\ でバックスラッシュまたは円記号を表します。
\p{名前} は POSIX character classes を指定するのに使います。 \p{Lower} は小文字[a-z]、\p{Upper}は大文字 [A-Z]、\p{Alpha} はアルファベット[\p{Lower}\p{Upper}]、 \p{Digit}は数字[0-9]、\p{Alnum}は英数字 [\p{Alpha}\p{Digit}]、\p{Space}は空白[ \t\n\x0B\f\r] を表します。
R,S が正規表現の時、 RS は R の次に S が来ることを示す正規表現
R,S,T が正規表現の時、(R|S|T) で R または S または T のどれかを示す正規表現
R が一文字を表す正規表現の時、R? で R が 0 回または 1 回を表す正規表現、R* で R が 0 回以上の繰返しを表す正規表現、 R+ で R が 1 回以上の繰返しを表す正規表現。なお、 R が複数の文字を表す正規表現の場合も、 (R)?, (R)*, (R)+ で同様の指定ができます

Python での正規表現

Python は re モジュールにより正規表現を扱えます。正規表現の文字列を compileすると re.Pattern オブジェクトが得られます。 Pattern オブジェクトに文字列を search や match させると、マッチした場合は re.Matchオブジェクト、マッチしない場合は None が得られます。 search は文字列の任意位置から、match は文字列の先頭位置からのマッチングの結果を返します。さらに、マッチするすべての部分をforなどで取り出すイテレータを取得するには finditerを使用します。イテレータの各要素からマッチした文字列を取り出すには group関数を使用します。


import re

p = re.compile("a*b");
print(p.search("baaaaab") != None)
print(p.match("baaaaab") != None)
if p.match("c"):
    print(True)
else:
    print(False)
for i in p.finditer("baaaaab"):
    print(i.group())

また1行で、正規表現が文字列にマッチするかを調べるには、次の表現を使用します。


m = re.search(正規表現,文字列)

以下は Python での正規表現を表し方の例です(詳しくは言語のリファレンスを御覧下さい)。

. は任意の一文字を表す正規表現
^ は文字列の最初、 $ は文字列の最後を表す正規表現
英字、数字など特殊文字以外は正規表現
[ と ] に囲まれる文字の列は、それらの文字のうちのどれか一文字を表す正規表現で、特に文字クラスと呼ばれます。 A-Zという表現で A から Z までのすべての文字を表します。
[^ と ] に囲まれる文字の列は、それらの文字のどれにも含まれない文字一文字を表す正規表現。これも同様に A-Z の表現が使えます。
\(バックスラッシュ、または円記号)に一文字を加えるとさまざまなものを表します。 \n や \t などは C 言語と同じですが、\d で数 [0-9]、 \D で数以外[^0-9]、 \s で空白[ \t\n\x0B\f\r]を表す記号(タブや改行も含む)、\S で空白以外の文字などを表します。また、 \\ でバックスラッシュまたは円記号を表します。
R,S が正規表現の時、 RS は R の次に S が来ることを示す正規表現
R,S,T が正規表現の時、(R|S|T) で R または S または T のどれかを示す正規表現
R が一文字を表す正規表現の時、R? で R が 0 回または 1 回を表す正規表現、R* で R が 0 回以上の繰返しを表す正規表現、 R+ で R が 1 回以上の繰返しを表す正規表現。なお、 R が複数の文字を表す正規表現の場合も、 (R)?, (R)*, (R)+ で同様の指定ができます

Pythonの文字列のエスケープ文字(次の文字を特殊な意味とする文字)である\(バックスラッシュ)と、正規表現のエスケープ文字が一致します。したがって、例えば正規表現として数字の文字クラス \d を文字列で表すと、 "\\d" のようにdの前の\(バックスラッシュ)がバックスラッシュであることを表すために、バックスラッシュを2重にする必要があります。このため、文字列のエスケープを無効にするraw文字列という表記法があります。これは文字列の前にrを付記するものです。つまり、r"\d"は"\\d"と等価になります。