当前位置:
文档之家› 现代汉语语料库建设及深加工项目总结报告
现代汉语语料库建设及深加工项目总结报告
要维护语料库(国家级)和标准、规范的权威性和协 调作用,还必须实时跟踪国内外语言学和计算语言学 的最新研究成果,不断考虑相对稳妥的更新规范、语 料库及语料库加工方法,保持其公允性、引导性和先 进性。
语料库的加工、应用及推广
1) 网络有偿或无偿使用,提供语言学、计算语言学、 对外汉语教学等研究者和外国留学生作各种常规查询, 包括字、词搭配、例句抽取、句型、句法结构、某种历 时的研究。 2) 提供计算语言学研究的各种统计数据,例如字频、 词频、句型句法结构统计、人名地名用字统计。 3) 根据各种中文信息处理的方法和流派的不同,研究 相适应的评测标准,提供标准测试集。充分发挥语用所 在资源(国家级)、标准、规范上的权威性和协调作用, 体现公允性、引导性和先进性。
语料库加工设想
提供各种常规查询界面,响应各种特殊查询需求。 2) 生成各种基于语料库的统计数据。 3) 提供各种常规评测标准及测试集,响应各种特殊需求 的测试集。 4) 跟踪国内外语言学和计算语言学研究,不断考虑相对 稳妥的更新规范、语料库、语料库加工方法。
语料库的推广
总结现有语料库的成绩,及时推广语料库 的应用成果,争取国家继续立项,以便有更大 的投资,保证国家语料库和国家规范的权威性、 先进性,走可持续发展道路。
在国家语委平衡语料库加工过程中,应该努力形成一 系列的可以作为国家标准的规范。对于现有不同的规 范之间应力求调和,尽可能使用普遍认同的标记,以 便各个中文信息处理系统能够使用统一的规范和标准。 已经制定、颁布和立项研究的规范有分词词表规范、 词性标记集规范、分词标注规范、短语标记集规范、 短语标注规范、语义标记集规范、语义标注规范等。
《信息处理用现代汉语词类标记集规范》起草单位:教育部语言文 字应用研究所。
一、项目起止时间,计划执行情况,最终 完成情况
本课题于2003年1月启动,2005年1月完成课题全部目标, 各项指标均达到或超过了课题任务书的规定。
二、项目研究的主要内容和实际达到的研 究目标
7000万字语料的分词和标注。完成7000万字语料的词语 切分和词性标注工作。语料切分标注错误率经过校对后 控制在万分之五以下。
语料库应用设想
1) 网络有偿或无偿使用,提供语言学、计算语言学、 对外汉语教学等研究者和外国留学生作各种常规查询, 包括字、词搭配、例句抽取、句型、句法结构、某种历 时的研究。
2) 提供计算语言学研究的各种统计数据,例如字频、 词频、句型句法结构统计、人名地名用字统计。
根据各种中文信息处理的方法和流派的不同,研究 相适应的评测标准,提供标准测试集。充分发挥语用所 在资源(国家级)、标准、规范上的权威性和协调作用, 体现公允性、引导性和先进性。
《信息处理用现代汉语词类标记集规范》起草单位:教育部语言文 字应用研究所。
基础(二)信息处理用现代汉语词类标记 集规范
国家社科基金 “九五”重大项目《信息处理用现代汉语词汇研究》的子项目“信 息处理用现代汉语词类标记集规范”(项目编号:97@yy001-4)的 基础上完成,进一步得到国家语委十五重大项目《现代汉语语料库 建设》子课题“国家语委核心语料分词及词性标注加工”(项目编 号:WT200104)的支持。
现代汉语语料库要面向国内外的长远需要,选材要 有足够的时间跨度,语料应抽样合理、分布均匀、比例 适当,科学地反映现代汉语全貌;在建立现代汉语语料 库的同时,还应着手研究和制定有关语料库的统一规范 和技术标准,以推动汉语语料库的建设。根据以上的用 途和要求,现代汉语语料库定位为系统型通用语料库, 总计7000万汉字。语料库建成后,拟每年增补350万字 的新语料。
语料时间分布
时间跨度为1919年~2002年,以近20年的语料为主。
4500000 4000000 3500000 3000000 2500000 2000000 1500000 1000000
500000 0
年份
语料领域分布:
13个大类,40多个小类,100多个详细分类。
30000000
25000000
基础(二)信息处理用现代汉语词类标记 集规范
《信息处理用现代汉语词类标记集规范》的制定在国家社科基金 “九五”重大项目《信息处理用现代汉语词汇研究》的子项目“信 息处理用现代汉语词类标记集规范”(项目编号:97@yy001-4)的 基础上完成,进一步得到国家语委十五重大项目《现代汉语语料库 建设》子课题“国家语委核心语料分词及词性标注加工”(项目编 号:WT200104)的支持。
20000000
15000000
10000000
5000000
0
文学 艺术 医药卫生 军体
社会 科技 天文地理 行政文书
字数
经济 农林
报纸 历史
海洋气象 实用文书
行政公文 司法文书
其他 生化 工业 商业文告
政法 数理 生活 礼仪辞令
国家语委语料库的语料样本包括24个详细信息:
a1总号; a2分类号; a3样本名称;a4类别; a5作者;
100万字语料树库建设。在标注语料库的基础上完成100 万字的树库建设。
a6写作时间;a7书刊名称;a8编著者; a9出版社; a10所在省;
a11出版日期;a12期号; a13版次(初版印数); a14本版印数;
a15总印数; a16总页数; a17开本;
a18选择方式;
a19起止页数;a20样本字数;a21样本总字数;a22文章总字数;
a23简繁体; a24抽样文章。
本项目研究的基础
基础(一)国家语委现代汉语语料库
我国从1990年开始筹备建立大型的国家级语料 库——国家语委现代汉语语料库,该语料库由 国家语言文字工作委员会主持,组织语言学界 和计算机界的专家学者共同建立。
共识:
现代汉语语料库应是一个大型的通用的语料库,应以语 言文字的信息处理、语言文字规范和标准的制定、语言文 字的学术研究、语文教育和语言文字的社会应用为主要服 务方面;现代汉语语料库作为国家级语料库,在语料可靠、 标注准确等方面应具有权威性,在汉语语料库系统开发技 术上应具有国际领先水平;