当前位置:文档之家› 国家语委十五科研重大项目-现代汉语语料库的建设及深加

国家语委十五科研重大项目-现代汉语语料库的建设及深加

国家语委十五科研重大项目-现代汉语语料库的建设及深加工国家语委语料库科研成果简介教育部语言文字应用研究所计算语言学研究室一、国家语委现代汉语语料库介绍语料库是存储于计算机中并可利用计算机进行检索、查询、分析的语言素材的总体。

基于语料库的分析方法是对传统的基于规则的分析语言的方法的一个重要补充。

语料库具有“大规模”和“真实”这两个特点,因此是最理想的语言知识资源,是直接服务于语言文字信息处理等领域的基础工程。

近十几年来,美、英、法、德、日等国家都投入巨资,相继建立了大规模的语料库,如英国国家语料库BNC等。

我国从1990年开始由国家语言文字工作委员会主持,组织了语言学界和计算机界的专家学者共同建立了大型的国家级语料库,即国家语委现代汉语语料库。

国家语委现代汉语语料库是一个大型的通用的语料库,以语言文字的信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育和语言文字的社会应用为主要服务目标。

国家语委现代汉语语料库作为国家级语料库,在汉语语料库系统开发技术上具有国际领先水平,在语料可靠、标注准确等方面具有权威性。

国家语委现代汉语语料库面向国内外的长远需要,选材有足够的时间跨度,语料抽样合理、分布均匀、比例适当,能够比较科学地反映现代汉语全貌。

国家语委现代汉语语料库由人文与社会科学、自然科学及综合三个大类约40个小类组成。

具体类别如下:1.人文与社会科学类划分为8个大类和30个小类:(1)政法:哲学、政治、宗教、法律;(2)历史:历史、考古、民族;(3)社会:社会学、心理、语言文字、教育、文艺理论、新闻、民俗;(4)经济:工业经济、农业经济、政治经济、财贸经济;(5)艺术:音乐、美术、舞蹈、戏剧;(6)文学:小说、散文、传记、报告文学、科幻、口语;(7)军体:军事、体育;(8)生活。

2.自然科学划分为6类:数理、生化、天文地理、海洋气象、农林、医药卫生。

3.综合类语料由应用文和难于归类的其他语料两部分组成。

应用文使用很广泛,主要涉及以下6类:(1)行政公文:请示、报告、批复、命令、指示、布告、纪要、通知等;(2)章程法规:章程、条例、细则、制度、公约、办法、法律条文等;(3)司法文书:诉讼、辩护词、控告信、委托书等;(4)商业文告:说明、广告、调查报告、经济合同等;(5)礼仪辞令:欢迎词、贺电、讣告、唁电、慰问信、祝酒词等;(6)实用文书:请假条、检讨、申请书、请愿书等。

国家语委语料库的语料样本包括24个详细信息:数据项 名称a1 总号a2 分类号a3 样本名称 a4 类别a5 作者a6 写作时间 a7 书刊名称 a8 编著者a9 出版社a10 所在省a11 出版日期 a12 期号 a13 版次(初版印数) a14 本版印数a15 总印数a16 总页数a17 开本a18 选择方式a19 起止页数a20 样本字数a21 样本总字数a22 文章总字数a23 简繁体a24 抽样文章国家语委现代汉语语料库的数据量包括新增的1000万字新语料已经达到了1亿字,已经完成词语切分和标注加工的约5000万字语料是语料库中1919~1992时间段的大部分语料以及1992~2002时间段的部分语料。

二、国家语委语料库建设与深加工1.主要科研成果国家语委现代汉语语料库建设已经完成的主要内容是:1)完成5000万字语料词语切分和词性标注加工。

词语切分校对精度达到万分之五,词性标注精度达到千分之五。

在语料库加工过程中研发了语料库加工、词类标记集等规范和词语切分和词性标注、语料库校对、语料库管理、语料检索、查询统计等一整套的计算机软件工具,功能齐全,用户界面友好。

2)100万字(5万句)句法树库建设完成。

在句法树库建设过程中研发了树库加工规范和树库句法分析器、树库校对工具等计算机软件。

3)按规则补充了新语料,国家语委语料库总字数达到1亿字。

国家语委语料库建设的主要科研成果如下:1)5000万字带有分词和词性标注的汉语语料2)语料库加工规范3)1000万字新语料,语料库总规模达到1亿字4)词语切分和词性标注软件5)100万字(5万句)句法树库6)树库加工规范8)树库标记集规范9)语料库词语切分和词性标注软件10)语料库校对加工工具软件11)语料库质量检查工具软件12)语料库例句检索工具软件13)语料查询与统计工具软件14)语料库管理工具软件15)树库句法分析器软件16)树库校对软件17)相关研究论文2.语料库的加工标注标注语料库达5000万字,在规模、加工精度、平衡性、加工技术等多方面都达到了国内外领先水平。

1)语料库规模总字符数达5000万(包括汉字、数字、西文字母、标点符号等等)。

2)语料时间分布时间跨度为1919年~2002年,以近20年的语料为主。

国家语委语料库语料样本的时间分布:年份3)语料领域分布分13个大类,40多个小类,100多个详细分类。

国家语委语料库语料样本的领域分布:4)标注加工国家语委现代汉语语料库加工遵循国内外信息处理领域通用的语料库加工路线,重视为语言学研究服务,采用机助人校的加工方式,通过开发语料库切分标注、校对、质量检查等软件工具来提高校对精度和控制加工质量。

在加工过程中制定了《信息处理用词类标记集规范》等语料库建设规范。

为兼容不同词语颗粒度,专门建立了层次化结构化的分词词表,分词词表的词条数量超过88000条。

国家语委语料库结构化词表示例:序号 词 主要词类 结构1 工具 n 工具/n2 工具包 n [工具/n 包/n]/n3 工具栏 n [工具/n 栏/n]/n4 工具书 n [工具/n 书/n]/n5 工具箱 n [工具/n 箱/n]/n6 工科 n 工科/n7 工矿 jn 工矿/jn8 工矿企业 n [工矿/jn 企业/n]/n9 工联 jn 工联/jn10 工龄 n 工龄/n11 工贸 jn 工贸/jn12 工贸结合 n [工贸/jn 结合/v]/v13 工农 jn 工农/jn14 工农兵 jn 工农兵/jn15 工农红军 n [工农/jn 红军/n]/n16 工农联盟 n [工农/jn 联盟/n]/n17 工农业 jn 工农业/jn18 工棚 n 工棚/n19 工期 n 工期/n20 工钱 n 工钱/n标注语料库主要词类分布频率表:5)国家语委语料库标注语料样例3.句法树库的加工标注在标注语料库的基础上,项目还完成了100万字(5万句)的句法树库建设。

句法树库是一项重要资源,它将为汉语语言研究和信息处理提供数据平台,推动理论和应用的发展。

1)句法标注作为分词、词性标注和语义标注的中间环节,有着承上启下的重要作用。

一个好的句法树库将为下一步的语义标注工作打下良好基础。

2)句法树库蕴涵丰富的句法信息,它为研究者提供带有句法标记的汉语真实文本素材,使之能够从中获得有关句法的各种信息。

例如从词类入手,可以考察某一特定类别词语的句法功能(在真实文本中所处的句法环境);从短语功能类型入手,可以考察某一特定类型短语的内部构造模式,等等。

3)句法树库可以进行数据统计、例句抽取等工作,为汉语教学科研、信息处理、词典编纂等领域的研究提供高质量资源。

句法树生成软件综合了现代汉语的词类、句法功能、句法结构等方面的信息以及一些规则,可以对输入的汉语句子做初步的句法分析,得到带有词性标记、短语功能标记和短语结构标记的句法树。

三、国家语委语料库建设计算机软件系统1.语料库词语切分和词类标注工具软件输入:语料文本输出:词语切分和词类标注语料a)语料切分标注词语切分和词类标注:大规模语料的切分标注:b)切分结果层次(结构)化:切分结果层次(结构)化使得语料库能够更好地满足不同研究应用需要。

2.机助人校的语料校对工具软件校对软件界面:¾校对者可与后台词典交互,直接获取词和词类信息¾软件自动通过色彩标识出语料校对信息¾严格的自动格式检查,防止用户误操作等带来的错误¾查找和替换提供快捷操作¾限制用户的编辑,提供局部有效的自由编辑模式¾校对文件多备份,最大限度防止数据丢失校对软件还记录校对者的所有操作,并反馈给后台切分标注软件,切分标注软件根据校对信息自动学习,提高切分标注精度。

3.语料库校对质量检查软件输入:词语切分和词类标注语料输出:词语切分和词类标注语料,质量检查结果,语料校对记录 质量检查软件主要完成语料抽样检查和人校机助的辅助工作,通过随机抽样来检查语料校对加工的质量。

4.切分标注语料库的定制输出输入:语料文本输出:定制的语料文本定制输出是指根据用户需求,对词语按照不同的颗粒度输出。

语料库定制通过层次化(结构化)的切分词表实现。

可定制的范围由词表的加工程度决定。

5.语料库例句检索软件语料库例句检索软件可以根据用户要求从语料库中提取相应的语句。

例句提取软件还可以提供例句的出处、作者、时间等详细信息。

6.语料库查询统计软件语料库查询统计软件可以根据用户的要求按时间、类别、作者、出版社等项目检索语料库,并进行字频、词频、词类使用频率等方面的统计。

软件提供时间、作者、类别、出版社等项目供用户对语料进行查询定制。

统计项目目前包括字频、词频、词类频率统计等。

7.句法树库树库句法分析器,分析器自动标注语句的内部结构和外部功能。

句法树库校对工具软件提供多样化的句法树形式为提高树库校对的效率和质量提供了保障。

四、国家语委语料库的应用目前,国家语委语料库已经为国家语委规范汉字表、汉字属性库项目和科技部863计划课题智能中文信息处理平台、中文信息处理应用基础研究项目以及973计划课题中文语音语言资源联盟项目等多个科研项目提供了支持,为北京大学、北京师范大学、首都师范大学、厦门大学、中科院自动化研究所、中科院心理研究所等多个高校和科研院所提供了服务,也为东芝(中国)研发中心、富士通研究院等企业提供了高质量的汉语语料资源。

国家语委语料库可以提供的服务:1.语料库(标注语料库、生语料库)使用权;2.分词词表;3.句法树库(100万字);4.语料库相关软件;5.根据用户需要提供检索、统计、查询、测试等服务。

国家语委语料提供服务主要通过四种方式:1.通过签订使用权许可协议向对方有偿提供语料库用于科研;2.利用语料库的相关技术提供数据、技术支持等有偿服务;3.国家语委、语用所科研项目内部提供的无偿服务;4.为从事汉语教学科研的学生学者提供无偿服务。

四、发表的相关研究论文1)靳光瑾等编著,《中文信息处理若干重要问题》,科学出版社,20032)靳光瑾,谈语料库建设与规范标准问题,《中文信息处理若干重要问题》,科学出版社,20033)靳光瑾,肖航,富丽,章云帆,《语料库建设-标准制订和质量检查》,第3届语言文字应用研讨会论文集,2003年11月4)靳光瑾,郭曙纶,肖航,章云帆,语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》,《语言文字应用》2003年第4期5)肖航,靳光瑾,《现代汉语词语切分歧义数据库构建》,第3届语言文字应用研讨会论文集,2003年11月6)靳光瑾,基于语料库的辞书编纂平台的应用,对外汉语学习词典学国际研讨会论文集,(2005年7月,香港城市大学出版社出版)7)富丽,对外汉语词典的规范性检查,对外汉语学习词典学国际研讨会论文集,(2005年7月,香港城市大学出版社出版)8)靳光瑾,肖航,富丽,章云帆,国家语委十五重大项目《语料库建设及深加工》研究成果汇报,《语言文字应用》2005年第2期。

相关主题