当前位置：文档之家› 正则表达式

正则表达式

2．1．1 匹配位置的元字符
包括：^、$、和\b。其中^（脱字符号）和$（美元符号）都匹配一个位置，分别匹配行的开始和结尾。比如，^string 匹配以 string 开头的行，string$匹配以 string 结尾的行。^string$匹配以 string 开始和结尾的行。单个$匹配一个空行。单个^匹配任意行。\b 匹配单词的开始和结尾，如：\bstr 匹配以 str 开始的单词，但\b 不匹配空格、标点符号或换行符号，所以， \bstr 可以匹配 string、string fomat 等单词。\bstr 正则表达式匹配的字符串必须以 str 开头，并且 str 以前是单词的分界处，但此正则表达式不能限定 str 之后的字符串形式。以下正则表达式匹配以 ing 结尾的字符串，如 string、This is a string 等 Ing\b 正则表达式 ing\b 匹配的字符串必须以 ing 结尾，并且 ing 后是分界符，以下正则表达式匹
字符类是一个字符集合，如果该字符集合中的任何一个字符被匹配，则它会找到该匹配项。字符类可以在[]（方括号）中定义。如：
[012345]可以匹配数字 0 到 5 中的任意一个。
<H[123456]>可以匹配 HTML 标签中的 H1 到 H6。
[Jj]ack 可以匹配字符串 Jack 或 jack。
字符或表达式 \W
说明
匹配任意不是字母，数字，下划线，汉字的字符
\S \D \B [^x] [^aeiou]
匹配任意不是空白符的字符匹配任意非数字的字符匹配不是单词开头或结束的位置匹配除了 x 以外的任意字符匹配除了 aeiou 这几个字母以外的任意字符
2.4 限定符
正则表达式的元字符一次只能匹配一个位置或一个字符，如果需要匹配零个一个或多个字符时，则需要使用限定符。限定符用于指定允许特定字符或字符集自身重复出现的次数。如{n} 表示出现 n 次；{n,}表示重复至少 n 次；{n,m}表示至少出现 n 次最多 m 次。常用限定符如下表：
2.7 分组
分组又称为子表达式，即把一个正则表达式的全部或部分分成一个或多个组。其中分组使用圆括号()，分组后把圆括号中的表达式看做一个整体来处理，比如:（abc）{1，2}表示 abc 出现一次或两次的字符串，其中把 abc 看做一个整体来进行匹配。
2.8 后向引用
当一个正则表达式被分组后，每一个组将自动被赋予一个组号，该组号可以代表该组的表达式。其中，组号的编制规则为：从左到右，以分组的左括号为标志，第一个组号为 1，第二个分组号为 2，以此类推。如：(A?(B?(C?)))将产生 3 个组号，第一组为：(A?(B?(C?)))；第二组为： (B?(C?))；第三组为:(C?)。
a. 表达式\b(\w+)\b 匹配一个单词并且单词的长度至少为 1 b. 表达式\s+匹配一个或多个空白字符 c. 表达式\1 将重复子表达式(\w+)匹配的内容，及匹配重复的单词 d. 匹配单词的结束位置。
分组不仅可以使用数字作为组号，还可以使用自定义名称作为组号。以下两个正则表达式都是将分组后的子表达式\w+命名为 word.
2.5 贪婪、惰性和支配性匹配
惰性匹配：先看字符串中的第一个字母是不是一个匹配，如果单独一个字符还不够就读入下一个字符，如果还没有发现匹配，就不断地从后续字符中读取，只道发现一个合适的匹配，然后开始下一次的匹配。
贪婪匹配：先看整个字符串是不是一个匹配，如果没有发现匹配，它去掉字符串中最后一个字符并再次尝试，如果还没有发现匹配，那么再次去掉最后一个字符，这个过程会一直重复直到发现一个匹配或字符串不剩一个字符为止。
表 2-1 常用的字符类
字符或表达式 \w \W \s \S \d \D [abc] [^abc] [0-9a-z_A-Z_] \p{name} \P{name} . [^0-9a-zA-Z_]
说明匹配单词字符(包括字母、数字、下划线和汉字) 匹配任意的非单词字符(包括字母、数字、下划线和汉字) 匹配任意的空白字符，如空格、制表符、换行符、中文全角空格等匹配任意的非空白字符匹配任意数字匹配任意的非数字字符匹配字符集中的任何字符匹配除了字符集中包含字符的任意字符匹配任何数字、字母、下划线。等同于\w 匹配{name}指定的命名字符类中的任何字符匹配除了{name}指定的命名字符类中之外的任何字符匹配除了换行符号之外的任意字符等同于\W
第一章正则表达式概述
正则表达式(Regular Expression)起源于人类神经系统的研究。正则表达式的定义有以下几种：
用某种模式去匹配一类字符串的公式，它主要是用来描述字符串匹配的工具。描述了一种字符串匹配的模式。可以用来检查字符串是否含有某种子串、将匹配的子
串做替换或者从中取出符合某个条件的子串等。由普通字符(a-z)以及特殊字符（元字符）组成的文字模式，正则表达式作为一个模版，
表 2-5 常用替换
字符或表达式 |
说明匹配竖线(|)左侧或右侧
(?(表达式)yes|no) （？（name）yes|no）
表达式要么与 yes 部分匹配要么与 no 部分匹配，其中 no 部分可以省略。
以 name 命名的字符串要么与 yas 部分匹配，要么与 no 部分 pp，其中 no 部分可以省略
配一个完整的单词：\bstring\b。
2.1.2 匹配字符的元字符
匹配字符的元字符有 7 个:.(点号)、\w、\W、、s\、\S、\d 和\D。其中点号匹配除换行之外的任意字符；\w 匹配单词字符（包括字母、汉字、下划线和数字）；\W 匹配任意非单词字符、\s 匹配任意的空白字符，如空格、制表符、换行等；\S 匹配任意的非空白字符；\d 匹配任意数字字符；\D 匹配任意的非数字字符。如： ^.$匹配一个非空行，在该行中可以包含除了换行符以外的任意字符。
2.3 字符转义表 2-2：常用的转义字符
表达式
可匹配
\r, \n
代表回车和换行符
\t
制表符
\\
代表 "\" 本身
还有其他一些在后边章节中有特殊用处的标点符号，在前面加 "\" 后，就代表该符号本身。比如：^, $ 都有特殊意义，如果要想匹配字符串中 "^" 和 "$" 字符，则表达式就需要写
支配性匹配：只尝试匹配整个字符串，如果整个字符串不能产生一个匹配，则不再进行尝试。
我们普通的字符类均是贪婪匹配，如果在字符类后加个问号(?)则表示懒惰匹配，要成为支配性匹配则在懒惰匹配后加个问号(?).
2.6 替换
正则表达式 0\d{2}-\d{8}和 0\d{3}-\d{7}分别匹配区号为 3 位和 4 位的固定电话号码，如果需要同时匹配区号为 3 位和 4 位的固定电话号码，可以使用替换满足这一需求。最简单的替换是使用竖线(|)表示。以下表达式匹配了区号为 3 位号码为 8 位和区号为 4 位号码为 7 位的的电话号码，区号和号码均使用-连接，0\d{2}-\d{8}|0\d{3}-\d{7}
反向引用提供了查找重复字符组的方便方法，反向引用可以使用数字命名（默认名称）的组号，也可以使用指定命名的组号。比如：\b(\w)\1\b 匹配两个字符一样的单词，此表达式和 \b(\w)\w\b 不一样，后者两个字符可以不一样。再看，\b(\w)(\d)\1\2\b，匹配一个字符和一个数字然后重复字符和数字。\b\w*(\w+)\1\b 匹配以至少两个字符一样结尾的单词。 \b(\w+)\b\s+\1\b 此正则表达式匹配的具体过程如下：
元字符字符串字符转义反义限定符替换分组反向引用零宽度断言匹配选项注释优先级顺序递归匹配
2．1 元字符
在正则表达式中，元字符（Metacharacter）是一类非常特殊的字符，它能够匹配一个位置或字符集合中的一个字符，如：、 \w 等。根据功能，元字符可以分为两种类型：匹配位置的元字符和匹配字符的元字符。
^\w$匹配一个非空行，并且该行中只能包含字母、数字、下划线和汉字中的任意字符。
\ba\w\w\w\w\w\w\\b 匹配以字母 a 开头长度等于 7 的任意单词
\ba\w\w\w\d\d\d\D\b 匹配以字母 a 开头后面有 3 个字符三个数字和 1 个非数字字符长度等于 8 的单词
2.2 字符类
字符
说明符串 expression,并将匹配的文本保存到自动命名的组里
(?<nane> expression) 匹配字符串 expression,并将匹配的文本保存到以 name 命名的变量中，该名称不能包含标点符号，不能以数字开头。
(?:expression) (?!expression) (?=expression) (?<=expression) (?<!expression) (?>expression)
将某个字符模式与所搜索的字符串进行匹配。用于描述某些规则的的工具。这些规则经常用于处理字符串中的查找或替换字符串。
也就是说正则表达式就是记录文本规则的代码。用一个字符串来描述一个特征，然后去验证另一个字符串是否符合这个特征。
以上这些定义其实也就是正则表达式的作用。
第二章正则表达式基础理论
这些理论将为编写正则表达式提供法则和规范，正则表达式主要包括以下基础理论：
(?<word>\w+)
(?’word’\w+) 因此\b(\w+)\b\s+\1\b 和以下正则表达式是等价的，都匹配重复的单词：
\b(?<word>\w+)\b\s+\k<word>\b
表 2-5 后向引用说明表
表达式

e商务文档

正则表达式

相关文档推荐：