当前位置:
文档之家› 中科院自动化所评测技术报告(SYSTEMII).pptx
中科院自动化所评测技术报告(SYSTEMII).pptx
中国科学院自动化所
技术说明-依存树到串系统
❖ 在源语言端运用依存结构进行统计翻译的新模型: Dependency-String Structure Model (DSS模型)
❖ 由于计算资源和时间的限制,参加本次评测的系统仍然沿 用和分层短语相同的文法
❖ DSS解码算法的输入是一棵树,而不是一个串,所以线图 是按照树节点来索引的,而不是按照串中的跨距(span)来 建立索引的
Institute of Automation, Chinese Academy of Sciences
中国科学院自动化所
技术说明-分层短语系统
中国科学院自动化所
❖ 主要借鉴了Wei[5]的基本思想,引入分层短语的 概念
❖ 有效地结合了短语模型和同步上下文无关文法 ❖ 分层短语模型将语序信息包含在模型之中,克服
❖ 后处理
▪ 大小写转换:未翻译词保留其原始格式 ▪ 格式转换:去除中文中的空格 ▪ 未登录词
Institute of Automation, Chinese Academy of Sciences
技术说明-系统融合[6][7]
MT1
……
MTm
中国科学院自动化所
N-best
N-best
MBR 解码器 对齐参考
了传统短语翻译的调序问题 ❖ 沿用了统计线性对数方法进行概率计算,使用了
如下6个特征:
▪ 双向短语翻译概率p(e/f)和p(f/e) ▪ 双向词汇化概率l(e/f)和l(f/e) ▪ 4gram语言模型 ▪ 句子长度惩罚
Institute of Aห้องสมุดไป่ตู้tomation, Chinese Academy of Sciences
中科院自动化所评测技术报 告(SYSTEM II)
魏玮 于东 王韦华 宗成庆 徐波
CASIA
内容概要
❖ 技术说明与参评系统
▪ 短语系统 ▪ 分层短语系统 ▪ 基于依存树到串系统 ▪ 前后处理 ▪ 系统融合 ▪ CASIA_SYSTEM II英中翻译系统
❖ 评测环境概要 ❖ 数据 ❖ 总结
中国科学院自动化所
评测环境概要
中国科学院自动化所
❖ 软硬件环境
运行平台 PC机
操作系统 Windows 2003
服务器
Linux (Ubuntu)
数量
CPU
2 Pentium 4, 3.0G
1
Xeon 2.0×2
RAM 2.0G 16.0G
❖ 运行时间(约4000句测试集)
系统 短语系统 分层短语 依存树到串
新闻领域 (小时)
▪ 新闻-CWMT08提供的Common,约85万句对和; NIST MT08评测提供语料,大约670万句对
▪ 科技- CWMT08提供的Special部分语料,约52万句 对; NIST MT08评测提供语料,大约670万句对
❖ 语言模型训练数据:
▪ LDC2007T38提供的Chinese Gigaword Third Edition,约3900万句
❖ 解码时使用了8个特征,最后两个为依存子树的惩罚
▪ 双向短语翻译概率p(e/f)和p(f/e) ▪ 双向词汇化概率l(e/f)和l(f/e) ▪ 4gram语言模型 ▪ 句子长度惩罚 ▪ 符合依存子树惩罚 ▪ 不符合依存子树惩罚
Institute of Automation, Chinese Academy of Sciences
Part-Of-Speech Tagger ❖ 英文依存树分析工具:Minimum-Spanning
Tree Parser (MSTparser)
Institute of Automation, Chinese Academy of Sciences
中国科学院自动化所
参评系统-CASIA_SYSTEM II
技术说明-前后处理
中国科学院自动化所
❖ 前处理
▪ 时间,数字处理模块 ▪ 地名,人名,机构名处理模块 ▪ 英文转化为小写 ▪ 预处理
• 乱码过滤(中文中的乱码、英文中的乱码以及包含中文词的句 子)
• 标点符号及数字变换(中文中的部分标点符号、英文中的双字 节符号及数字)
• 英文缩写处理 • 中文分词、英文Tokenization
Institute of Automation, Chinese Academy of Sciences
技术说明-短语系统
❖ 典型的短语系统[2] ❖ 非单调解码,任意跳转 ❖ 对数线性模型 ❖ 10个特征
▪ 双向短语翻译概率p(e/f)和p(f/e) ▪ 双向词汇化概率l(e/f)和l(f/e) ▪ 4gram语言模型 ▪ 扭曲概率 ▪ 句子长度惩罚 ▪ 短语惩罚 ▪ 方向概率[3] ▪ IBM扭曲模型[4]
4-gram LM
分层短语系
统,抽取带变
分 层
量短语与概率 计算
短 语 系
转换数据结 构,二进制存
储
统
多个1-best结 果以替代Nbest结果
调序 模型
转换数据结
构,二进制存 储
短 语
系
多个1-best结 统
果
生成1-best
融 构建混淆网络 合
模 块
MBR解码器
Institute of Automation, Chinese Academy of Sciences
20 18
科技领域 (小时) 16 18 16
Institute of Automation, Chinese Academy of Sciences
数据
中国科学院自动化所
❖ 开发数据:
▪ 新闻-2007 SSMT英中翻译测试集 ▪ 科技-CWMT08提供的Special语料中随机挑选200句
❖ 翻译模型训练数据:
原始语 料
依
存 采用和分层短 树 语相同的文法
到
串 转换数据结
系 构,二进制存
统
储
解码算法输入 是树,线图
按照树节点来 索引
多个1-best结 果以替代Nbest结果
数据过滤
CASIA预处 理模块
LMSRI工具 包
源语言依存句 法分析
双语语料 GIZA++
作为Initial Phrase
CASIA短语抽取 与概率计算
GIZA++词对齐
GIZA-TER 混淆网络
CN解码 Institute of Automation, Chinese Academy of Sciences
技术说明-外部技术
中国科学院自动化所
❖ 汉语分词工具:计算所开发的ICTCLAS3.0 ❖ 双语词对齐工具:GIZA++ ❖ 语言模型训练工具:SRILM工具包 ❖ 英文词性标注工具:Stanford Log-linear