当前位置：文档之家› 中科院自动化所评测技术报告(SYSTEMII).pptx

中科院自动化所评测技术报告(SYSTEMII).pptx

中国科学院自动化所
技术说明-依存树到串系统
❖ 在源语言端运用依存结构进行统计翻译的新模型： Dependency-String Structure Model (DSS模型)
❖ 由于计算资源和时间的限制，参加本次评测的系统仍然沿用和分层短语相同的文法
❖ DSS解码算法的输入是一棵树，而不是一个串，所以线图是按照树节点来索引的，而不是按照串中的跨距(span)来建立索引的
Institute of Automation, Chinese Academy of Sciences
中国科学院自动化所
技术说明-分层短语系统
中国科学院自动化所
❖ 主要借鉴了Wei[5]的基本思想，引入分层短语的概念
❖ 有效地结合了短语模型和同步上下文无关文法 ❖ 分层短语模型将语序信息包含在模型之中，克服
❖ 后处理
▪ 大小写转换：未翻译词保留其原始格式 ▪ 格式转换：去除中文中的空格 ▪ 未登录词
Institute of Automation, Chinese Academy of Sciences
技术说明-系统融合[6][7]
MT1
……
MTm
中国科学院自动化所
N-best
N-best
MBR 解码器对齐参考
了传统短语翻译的调序问题 ❖ 沿用了统计线性对数方法进行概率计算，使用了
如下6个特征：
▪ 双向短语翻译概率p(e/f)和p(f/e) ▪ 双向词汇化概率l(e/f)和l(f/e) ▪ 4gram语言模型 ▪ 句子长度惩罚
Institute of Aห้องสมุดไป่ตู้tomation, Chinese Academy of Sciences
中科院自动化所评测技术报告(SYSTEM II)
魏玮于东王韦华宗成庆徐波
CASIA
内容概要
❖ 技术说明与参评系统
▪ 短语系统 ▪ 分层短语系统 ▪ 基于依存树到串系统 ▪ 前后处理 ▪ 系统融合 ▪ CASIA_SYSTEM II英中翻译系统
❖ 评测环境概要 ❖ 数据 ❖ 总结
中国科学院自动化所
评测环境概要
中国科学院自动化所
❖ 软硬件环境
运行平台 PC机
操作系统 Windows 2003
服务器
Linux (Ubuntu)
数量
CPU
2 Pentium 4, 3.0G
1
Xeon 2.0×2
RAM 2.0G 16.0G
❖ 运行时间(约4000句测试集)
系统短语系统分层短语依存树到串
新闻领域（小时）
▪ 新闻-CWMT08提供的Common，约85万句对和； NIST MT08评测提供语料，大约670万句对
▪ 科技- CWMT08提供的Special部分语料，约52万句对； NIST MT08评测提供语料，大约670万句对
❖ 语言模型训练数据：
▪ LDC2007T38提供的Chinese Gigaword Third Edition，约3900万句
❖ 解码时使用了8个特征，最后两个为依存子树的惩罚
▪ 双向短语翻译概率p(e/f)和p(f/e) ▪ 双向词汇化概率l(e/f)和l(f/e) ▪ 4gram语言模型 ▪ 句子长度惩罚 ▪ 符合依存子树惩罚 ▪ 不符合依存子树惩罚
Institute of Automation, Chinese Academy of Sciences
Part-Of-Speech Tagger ❖ 英文依存树分析工具：Minimum-Spanning
Tree Parser (MSTparser)
Institute of Automation, Chinese Academy of Sciences
中国科学院自动化所
参评系统-CASIA_SYSTEM II
技术说明-前后处理
中国科学院自动化所
❖ 前处理
▪ 时间，数字处理模块 ▪ 地名，人名，机构名处理模块 ▪ 英文转化为小写 ▪ 预处理
• 乱码过滤（中文中的乱码、英文中的乱码以及包含中文词的句子）
• 标点符号及数字变换（中文中的部分标点符号、英文中的双字节符号及数字）
• 英文缩写处理 • 中文分词、英文Tokenization
Institute of Automation, Chinese Academy of Sciences
技术说明-短语系统
❖ 典型的短语系统[2] ❖ 非单调解码，任意跳转 ❖ 对数线性模型 ❖ 10个特征
▪ 双向短语翻译概率p(e/f)和p(f/e) ▪ 双向词汇化概率l(e/f)和l(f/e) ▪ 4gram语言模型 ▪ 扭曲概率 ▪ 句子长度惩罚 ▪ 短语惩罚 ▪ 方向概率[3] ▪ IBM扭曲模型[4]
4-gram LM
分层短语系
统，抽取带变
分层
量短语与概率计算
短语系
转换数据结构，二进制存
储
统
多个1-best结果以替代Nbest结果
调序模型
转换数据结
构，二进制存储
短语
系
多个1-best结统
果
生成1-best
融构建混淆网络合
模块
MBR解码器
Institute of Automation, Chinese Academy of Sciences
20 18
科技领域（小时） 16 18 16
Institute of Automation, Chinese Academy of Sciences
数据
中国科学院自动化所
❖ 开发数据：
▪ 新闻-2007 SSMT英中翻译测试集 ▪ 科技-CWMT08提供的Special语料中随机挑选200句
❖ 翻译模型训练数据：
原始语料
依
存采用和分层短树语相同的文法
到
串转换数据结
系构，二进制存
统
储
解码算法输入是树，线图
按照树节点来索引
多个1-best结果以替代Nbest结果
数据过滤
CASIA预处理模块
LMSRI工具包
源语言依存句法分析
双语语料 GIZA++
作为Initial Phrase
CASIA短语抽取与概率计算
GIZA++词对齐
GIZA-TER 混淆网络
CN解码 Institute of Automation, Chinese Academy of Sciences
技术说明-外部技术
中国科学院自动化所
❖ 汉语分词工具：计算所开发的ICTCLAS3.0 ❖ 双语词对齐工具：GIZA++ ❖ 语言模型训练工具：SRILM工具包 ❖ 英文词性标注工具：Stanford Log-linear

e商务文档

中科院自动化所评测技术报告(SYSTEMII).pptx

相关文档推荐：