【Perl5】正規表現

2015年9月22日2015年10月19日

正規表現とは、文字列の一部をパターン化して各種処理をする手法です。

Perl では、パターンマッチ演算子として
基本的には、スラッシュ(/)で囲んだ文字列が正規表現として処理されます。
よく使われる場面は、条件式や文字列の置換だったりします。
条件式で使うとすると以下のような感じになります。

構文	内容
if ( 文字列 =~ /パターン/)	もし「文字列」の中に「パターン」が含まれていれば（パターンマッチすれば真）
if ( 文字列 !~ /パターン/)	もし「文字列」の中に「パターン」が含まれていなければ（パターンマッチすれば偽）

また、下記のように省略して記述することもできます。
この場合、「文字列」は、特殊変数 $_ が使われます。

構文	内容
if (/パターン/)	もし変数 $_ の中に「パターン」が含まれていれば（パターンマッチすれば真）
if (!/パターン/)	もし変数 $_ の中に「パターン」が含まれていなければ（パターンマッチすれば偽）

正規表現では、区切り文字であるスラッシュを他の任意の記号に置き換えることもできます。
※「区切文字」は、空白文字以外の記号を使用することができます。
(@, #, *, |, #, {}, [], () など）

構文	内容
[区切文字] パターン [区切文字]	/パターン/ に同じ

パターンマッチ演算子には、オプションとして、いくつかの修飾子が実装されています。

修飾子	内容
g	繰り返しマッチングする (global)
i	大文字と小文字の区別をしない (case-insensitive)
m	文字列を複数行として扱う (multi-line)
o	変数展開を 1 度だけ行う (only once)
s	文字列を単一行として扱う (single line)
x	拡張正規表現を行う (extended)

正規表現では、下記の記号をメタ文字として特殊な機能を持たせています。
なので、メタ文字を「文字」としてマッチさせるためには、
直前に \ を付けてエスケープする必要があります。

\ ^ . $ * ? | ( ) [ ] { } +

メタ文字	正規表現上の意味
\|	選択

複数の文字列をパイプで分割すると、複数の文字列のどれかにマッチさせます。

メタ文字	正規表現上の意味
( )	グループ化

複数の文字列をまとめた形でパターンマッチを行います。
また、パターングループでマッチした文字列は、特殊変数 ( $ + 数字 ) に
マッチした順に代入されていきます。($1, $2, $3, … )

メタ文字	正規表現上の意味
[ ]	指定内の任意表現

マッチングの対象となる文字列中に、[ ] （ブラケット）で囲んだ文字のいずれかをマッチさせます。
ブラケット中の先頭部に「 ^ 」（キャレット）があれば、逆の意味となります。
また、ブラケット中に「 – 」（マイナス）があれば、範囲指定を意味します。

文字クラスで多用されるものとして、次のような表現があります。

量指定子の正規表現を行う場合、マッチする範囲は最大マッチングとなります。

前述以外で、他にも正規表現上の特殊な意味として、よく使われるものがあります。

正規表現を使用し、マッチした文字列を置き換える置換演算子があります。

構文	内容
s/パターン/置換文字列/	「パターン」にマッチする文字列を「置換文字列」に置き換える

置換演算子は省略形として、左辺を省略することもできます。
この場合、左辺は特殊変数 $_ が充てられます。

パターンを囲む区切り文字のスラッシュを任意の区切り文字に変更することができます。
この場合、先頭の m オプションを付けることはありません。
置換演算子には、置換えを行う際のオプションとして、次の修飾子が用意されています。

修飾子	内容
g	繰り返しマッチする (global)
i	大文字と小文字の区別をしない (case-insensitive)
m	文字列を複数行として扱う (multi-line)
o	変数展開を1度だけ行う (only once)
s	文字列を単一行として扱う (single line)
x	拡張正規表現を行う (extended)
e	置換文字列を「式」と見なす (evaluation)

変換演算子は文字列を 1 文字ずつ順にスキャンして、
対象文字列に含まれるすべての文字を変換して、変換した文字数を返す演算子です。

構文	内容
tr/変換対象の文字/変換後の文字/	「変換対象の文字」をスキャンして「変換後の文字」にすべて変換する
y/変換対象の文字/変換後の文字/	上に同じ。

変換演算子にも修飾子が次のとおり用意されています。

正規表現を利用する関数として、split 関数があります。

Posted by 管理人