当前位置:文档之家› 语料库的词性标注

语料库的词性标注

语料库的词性标注
中国外语教育研究中心 梁茂成
主要内容
词性标注的意义
词性标注方法
词性标注集 词性标注语料的检索
词性标注的意义
又称词性赋码(POS, Part-of-Speech Tagging),指对文本中的所有词进行分 析,确定其语法属性,并将该属性添加 到文本中的对应位置。
对经过词性标注后的语料库可以进行更 有效的检索和分析,可以方便从语料库 中提取语法相关信息,即Leech所说的 added value。
词性Байду номын сангаас注方法
词性标注原理
TreeTagger (Multilingual Version 2.0)的操
作方法
词性标注集
词性标注集(tagset)即一整套符号,代
表各类词性。
词性标注集具有内在规律。
词性标注语料的检索
安装EditPad Pro
以赋码为线索,借助正则表达式检
索 AntConc支持正则表达式
谢谢
相关主题