文本信息结构化与可视化研究
赵铁军
哈尔滨工业大学计算机学院
语言技术研究中心
2004年7月12日·复旦大学
提纲
计算机理解自然语言的表现方式 结构化与图形化
分层次结构化的理解系统
文本信息结构化的若干研究
网页链接结构可视化
汉语动词次范畴化框架自动分析
跨语言结构转换—基于实例机器翻译
人对自然语言的理解
行为反应
语言能力:问答/文摘/复述/翻译… …
显式或隐式地表达出语言的结构和意义:心理学家的看法—人的理解过程是从词的序列中建构起具有层次安排的命题
计算机对自然语言的理解
面向应用的NLP—上述2
对自然语言的多层次分析—上述3:自然语言
的结构化表示
多层次的语言结构表示—语言理解系统 文本 分句 词法分析/分词
词性标注 短语级分析
句法分析(功能) 语义分析 语篇分析 理解 一种语言 另一种语言
跨语言处理 单语处理
语篇结构/命题网络 语义结构 … … 句法及句法功能结构 短语结构 词性序列
标准化词序列 句子序列 自然形态 文本的结构化:面向不同应用有不同的结构化形式
词/词性序列
名实体识别
摘句式文摘
部分结构分析
自然语言的可视化或图形化:另外一种理解方式
图像理解—自然语言化←→文本理解—图形化 故事理解→动画
对语言信息处理结果的一些简单而实用的图形化:词或短语识别结果的反显 / 句法结构树形
图 / 依存关系图 / 评分结果的直方图… …
强调视觉效果,增强技术可信性又增加趣味性
文本信息结构化的若干研究(1)
网页链接结构可视化
研究背景:挖掘特定专业领域(IT)网页信息关联—结构的可视化,富士通研究开发中心有限公司委托研究项目
研究意义:互联网获取相关信息数据库 / 相关信息跟踪
网页实例:
2002秋季英特尔信息技术峰会主体演讲介绍
2002年10月29日 18:37 新浪科技主体演讲:
10月31日星期四上午
A:开幕致词
演讲人: Jason Chen
职位:英特尔公司副总裁、英特尔公司亚太区总裁… … … …
相关链接
2002秋季英特尔信息技术峰会技术讲座介绍(2002/10/29 18:24)
英特尔通过纳米技术扩展摩尔定律(2002/10/29 17:41)
英特尔将至强™处理器频率提升至2.80 GHZ(2002/10/29 17:36)
英特尔:计算和通信融合是企业竞争优势的关键(2002/10/29 17:29) 英特尔推出新技术和基础模块以解决存储难题(2002/10/29 17:27) … … … …
可视化效果
关键技术—信息抽取模板
例如:产品模板
–产品名称
–产品所属公司名称
–产品所属类别
–产品相关的事件(如:推出、投放)
–事件发生地点
–事件发生时间
… …
其他如:财务模板/人物模板/技术模板… …
关键技术—特征词识别/二元关系确定 特征词表
名实体关系识别规则
类别权重
规则形式(从训练语料中自动获取)if [PN]{verbin}[Com][Post]
then Pn-In:PN;
Cur-Com:Com;
Cur-Post:Post;
网页链接结构可视化
结果示例
中国联通董事长变更杨贤足去职王建宙接任 Pn-In:王建宙
Cur-Com:中国联通
Cur-Post:董事长
Pn-out:杨贤足
Pre-Com:中国联通
Pre-Post:董事长
文本信息结构化的若干研究(2)汉语动词次范畴化框架自动分析
研究背景:国家自然科学基金项目(60373101) 研究目标:建立汉语动词次范畴化词汇知识库,服务于汉语文本信息自动处理技术的需要—文本信息结构化的一个层次
汉语动词次范畴化框架(SCF)形式化描写:五元组=<V, TA, NA, PA, CL> 其中V谓语动词集合 / TA论元类型集合(11种)/ NA相应谓语动词支配论元个数 / PA相应论元在SCF中的相对位置 / CL 广义句法形态常量(“着了过”等6个)
实现过程:获取→应用
获取过程
学习SCF预设集合:43000简单句(词典例句+人民日报语料),1774动词→非完整句法分析→生成原始SCF预设集合→统计过滤→获得
SCF预设集合并计算相应概率分布 / 结果138个
SCF框架
从大规模真实文本中自动获取汉语动词SCF:
6个月人民日报语料库,3558动词→句法分析
结果为输入→错误校正→模式提取→SCF生成
→假设检验
大规模自动获取结果
检验方法
评价指标零检验BHT检验ML0.001
检验
ML0.005
检验
ML0.008
检验
ML0.01
检验
Precision 37.43%50%39.2%40.3%58.2%60.6% Recall85.9%57.2%85.9%83.33%54.5%51.3% F-measure52.1453.3653.8354.3356.355.56
该结果可以和英语同类研究最好结果相比 英语53%~65% 本研究53%~56%
成果:SCF知识库,动词总数=3502
SCF
数目 1 2 3 4 5 6 7 8 9 10 11 12 13 14 动词
个数9 32 120 211 321 440 442 408 335 274 216 180 126 92 SCF
数目15 16 17 18 19 20 21 22 23 24 25 26 28 30 动词
个数84 55 40 30 20 23 12 8 8 9 3 1 2 1
51015202530351
54310851627216927113253
系列1
应用:SCF分析过程 / 输入=句法分析器输出,输出=句子SCF框架
示例
•我们/r 要/vz 坚持/vg 解放/vg 思想/ng AP[实事求是/i 的/usde ]BNP[思想/ng 路线/ng ]。
/
•坚持: r vz vg vg ng AP BNP
•坚持: NP v VP
•VO[花/vg BNP[BMP[二\百\/m 元/q ]人民币/ng ]]便/c 能/vz VO[欣赏/vg BNT[这里/s 一/m 年/q ]]的/usde 双/m 休/vg 日/q NP[下午/t 的/usde 歌剧/ng ]表演/vg 。
/
•花: VO vg BNP c vz VO vg BNT usde m vg q NP vg
•花: NP v NP VP
应用检验(初步):提高汉语句法分析精度,短语级精确率提高了5.36%,召回率提高了7.1%,句子级精确率和召回率提高了8.04%
今后工作改进:通过语义回退,取得自动获取SCF的更高精确率
文本信息结构化的若干研究(3)跨语言结构转换—基于实例机器翻译 研究背景:科技部政府间国际科技合作项目(CI-2003-03),与爱尔兰都柏林城市大学合作
研究目标:面向奥运会服务的汉英-英汉翻译系统,重点领域—体育、餐饮、交通、旅游
资源支持:国家863计划项目子课题(面向奥运智能信息服务的平行语料加工),汉英日三语句对数70万
跨语言结构转换—基于实例机器翻译
系统实现
Input
Trans module
Output
Examp base
Bilingual corpus
Auto KA
Examp Sel
Trans Sel Surface Gen
Sent_align Word_align Examp_extrac
转换基础:大于词的结构对齐=汉英双语词汇对齐+双语词汇扩展片断对齐
扩展片断示例:原子—词汇对齐 / 平行扩展—(ab-AB) (bc-BC) (bcd-BCD) (cd-CD) (de-DE) / 非平行扩展—(fghi-FGHI)
翻译过程:
源语言片断匹配—实例选择
目标语言片断匹配—译文选择 ∑=+<+<<-=l i i k k k i i i
s s Segment 01k 1n l 0)]...([max arg 11-i δ)1)]...([log())]...([11(*))]...([()]...([111111111+⨯+--⨯=++-++----i k k i k k i i w i k k i k k i i i i i i i i s s Fre s s Length k k An s s Length s s δ)
(*),|(*)|(max arg ''
'
T T SID P l m An P S T P T =
翻译结果评测—汉英翻译
NIST 2004 MT Evaluation (大规模语料训练) BLEU4:0.1023(区分大小写)
NIST5:5.5672(区分大小写) / 5.8331(不区分
大小写)
采用面向质量的数据训练策略后,分数提高:对齐质量=2*对齐词数/(汉语词数+英语词数) NIST5:6.34(不区分大小写)
NIST5:6.5982(订正输出格式错误以后)
谢谢各位!。