当前位置:文档之家› 【CN110110336A】一种面向藏汉机器翻译的藏语句法语料库的构建方法【专利】

【CN110110336A】一种面向藏汉机器翻译的藏语句法语料库的构建方法【专利】

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910368324.3
(22)申请日 2019.05.05
(71)申请人 西北民族大学
地址 730030 甘肃省兰州市城关区西北新
村1号
(72)发明人 万福成 
(74)专利代理机构 西安研创天下知识产权代理
事务所(普通合伙) 61239
代理人 杨凤娟
(51)Int.Cl.
G06F 17/28(2006.01)
G06F 17/27(2006.01)
(54)发明名称
一种面向藏汉机器翻译的藏语句法语料库
的构建方法
(57)摘要
本发明公开了一种面向藏汉机器翻译的藏
语句法语料库的构建方法,包括以下步骤:A、将
具有句对齐结构的平行语料库中的藏语句子进
行词性标记;B、利用词对齐工具将藏语句子中的
词汇进行词对齐,形成藏语词、汉语词对齐匹配
形式;C、利用树库制作工具,将具有词性标记和
词对齐信息的藏语词逐个进行短语标记;D、运用
自增模式,扩展藏语句法语料库。

本发明能够解
决藏语句法语料库稀缺的问题,从而提高翻译质
量。

权利要求书1页 说明书3页CN 110110336 A 2019.08.09
C N 110110336
A
权 利 要 求 书1/1页CN 110110336 A
1.一种面向藏汉机器翻译的藏语句法语料库的构建方法,其特征在于,包括以下步骤:
A、将具有句对齐结构的平行语料库中的藏语句子进行词性标记;
B、利用词对齐工具将藏语句子中的词汇进行词对齐,形成藏语词、汉语词对齐匹配形式;
C、利用树库制作工具,将具有词性标记和词对齐信息的藏语词逐个进行短语标记,并逐层进行合并直至形成一个完整的句法树;
D、运用自增模式,扩展藏语句法语料库。

2.根据权利要求1所述的一种面向藏汉机器翻译的藏语句法语料库的构建方法,其特征在于,所述步骤B中将藏语句子中的词汇进行词对齐的方法包括以下步骤:
a、运用词对齐工具训练双语句对齐平行语料库;
b、以词对齐中间结果作为藏语汉语词匹配形式,并形成具有类似括号匹配的形式;
c、将词对齐的结果以及词性标注的结构统一处理成具有括号匹配形式的内容,提供下一步处理作为输入。

3.根据权利要求1所述的一种面向藏汉机器翻译的藏语句法语料库的构建方法,其特征在于,所述步骤C中逐层进行合并直至形成一个完整的句法树的方法包括以下步骤:
a、将具有括号匹配形式的带有词性标记和词对齐信息的各个单元输入到树库制作工具中;
b、以词性为基础,逐个将以词为单元的内容合并,并以短语标记结尾;
c、逐个合并短语结构标记为新的短语结构标记,最终合并成一个句子,并标注以句子标记结尾。

4.根据权利要求1所述的一种面向藏汉机器翻译的藏语句法语料库的构建方法,其特征在于,所述步骤D中运用自增模式扩展藏语句法语料库的方法包括以下步骤:
a、将人工制作的藏语句法语料库作为训练语料库,运用BerkerleyParser句法分析器作为句法分析工具;
b、解码测试语料库,得到待人工校对的藏语句法树;
c、人工校对藏语句法树的结果,将校对后的结果加入到训练语料库中,继续步骤a,以这种模式扩展藏语短语句法树库。

2。

相关主题