当前位置:
文档之家› 正则表达式Regular Expressions (Regex)
正则表达式Regular Expressions (Regex)
• 单数普通名词的表达式:\w+_NN1 • It/it: it_PPH1 • 实义动词:\w+_VV\w匹配一个数字,等价于[0‐9]。 \D:匹配任何的非数字,等价于[^0‐9]。 \n:匹配一个换行符 \r:匹配一个回车符 \s:匹配一个单个white 空格符,包括空格, tab,换行符 • \S:匹配除white 空格符以外的一个单个的 字符
• \w:匹配所有的数字和字母以及下划线,等 价于[A‐Za‐z0‐9_]。 • \W:匹配除数字、字母外及下划线外的其 它字符,等价于[^A‐Za‐z0‐9_]。 • ^:表示匹配的字符必须在最前边。 • $:与^类似,匹配最末的字符。
复杂正则表达式编写策略
• 1.先熟悉赋码集和正则表达式特殊字符 • 2.编写单项,即单个的词及其赋码 • 3.根据需要再进行组合
• • • • • • • • •
-ing形式的表达式:\w+_V\wG 过去分词的表达式:\w+_V\wN 助动词have的各种形式的表达式:\w+_VH\w 系动词be的所有形式的表达式:\w+_VB\w 否定词not的表达式:\w+_XX 副词的表达式:\w+_R\w+ 形容词的表达式:\w+_J\w+ 介词of的表达式:of_IO 不定式to的表达式:to_TO
正则表达式与句法结构的提取
• TASK 1:检索出所有动词+V-ing的结构,如enjoy doing; • TASK 2:检索出所有的进行时态; • TASK 3:检索出所有的完成时; • TASK 4:检索出所有的be of (adj)N,如be of great importance; • TASK 5:检索出所有的be (adv) adj of结构; • TASK 6:检索出所有类似it (has) been (very) easy to V的句式,和所有N (has) been (very) easy to V的句式
• x|y:匹配’x’或者’y’ • {n}:这里的n 是一个正整数。匹配前面的n 个字符。 • {n,}:这里的n 是一个正整数。匹配至少n 个前面的字符。 • {n,m}:这里的n 和m 都是正整数。匹配至 少n 个最多m 个前面的字符。 • [xyz]:一字符列表,匹配列出中的任一字符。 你可以通过连字符‐指出一个字符范围。
正则表达式与构词法教学与研究
• TASK 1:检索出所有以un-开头的动词和形 容词; • TASK 2:检索出所有以-ible或able结尾的 形容词; • TASK 3:检索出所有-ly结尾的形容词和副 词; • TASK 4:检索出所有以-or,-er,-ar结尾的 名词
注意
• 其实我们也可以用AntConc中的通配符完成 这些任务。
正则表达式
Regular Expressions (Regex)
北京外国语大学中国外语教育研究中心 浙江大学外国语言文化与国际交流学院 何文忠
正则表达式中的特殊字符
• \ 将其后的字符变成特殊字符 • * :匹配任意个字符(包括0 个字符) • +:匹配+号前面的字符1 次或n 次。等价于 {1,} • ?:匹配?前面的字符0 次或1 次,即可有可 无 • .:(小数点)匹配除换行符外的所有单个的字 符。