主要包括实体识别关系抽取
测试数据特征提取与训练数据特征提取过程类似 区别
特征文件中无类别信息
class
F1 F2 F3 F4 F5 F6 F7 …
?
Na Nc 演绎 和 。 c wp …
16
识别过程-SVM or MaxEnt分类
输入:特征文件 输出:类别编号
class ?
F1 F2 F3 F4 F5 F6 F7 … Na Nc 演绎 和 。 c wp …
采集信息 结构化数据
基于NLP的IR
非结构化数据
结构化数据
信息抽取 理解文档
细粒度挖掘 抽取信息
理解语言
面向IR的NLP: (分词、词性标注、命名实体识别、依存句法分析、词义消歧、语义角色标注等)
5
什么是音乐实体类型?
命名实体(Named Entity, NE)
实体名:人名、地名、机构名、专有名词、时间等 例子:在2008年11月7日吉林大学召开的全校干部
Relation Type
Prob
艺术家-歌曲
0.75
艺术家-专辑
0.13
歌曲-专辑
0.05
艺术家-唱片公司
0.02
专辑-发行时间
0.01
无关系
0.04
17
评测方法与结果
评测指标为准确率(P)、召回率(R)和 F值
某类被正确分类的实例数 Precision 分类器预测的某类的实例数
某类被正确分类的实例数 Recall 测试数据中某类的实例数 F - Score 2*Precision*Recall
训练过程 识别过程
语料库
随机筛选 实验数据
训练数据 (2/3)
测试数据 (1/3)
特征提取
SVM训练/ MaxEnt训练
SVM模型/ MaxEnt模型
SVM分类/ MaxEnt分类
识别结果
13
训练过程-特征提取
输入:训练语料&词法句法信息
输出:特征文件
例如:在/p 北京/ns 奥运会/j 开幕式/n 上/nd ,/wp 刘 欢/Na 和/c 莎拉布莱曼/Na 共同/d 演绎/v 了/u 主题歌 /n 《我和你》/Nc 。/wp
Entity 2 Xxxxx xxxxxxxxx
Entity 3
Xxxxxxxxx Xxxx
ID Subsidiary Org Time
Place
1
吉林大学 教育部 1946年 长春市
…
…
…
…
知识数据库
…
…
…
…
……4ຫໍສະໝຸດ 互联网用户文档
提问、log 答案
理解用户 问答系统
智能交互 智能化搜索
垂直搜索
精准化搜索
基于有指导的音乐实体关系抽取
学 生:王莉峰 指导老师:秦 兵 老师 日 期:2009-6-7
提纲
课题简介 主要研究内容 研究方法和实施方案 下一步工作
2
提纲
课题简介
什么是信息抽取? 什么是音乐实体类型? 什么是音乐实体关系抽取? 为什么选择音乐领域?
主要研究内容 研究方法和实施方案 下一步工作
语料库建设 特征提取 模型训练 评测
下一步工作
11
语料库建设
来源:新浪音乐新闻(2008.8-2009.3) 处理流程
句子
新闻文本 断句
句子
…
句子
分词、 词性标注、 音乐实体 识别
随机筛选 10000句 作为待标 注语料
制定标 注规范、 人工标 注语料
音乐实体 关系抽取
语料库
12
音乐实体关系抽取技术介绍
xxxxxx
Entity 2 Xxxxx xxxxxxxxx
Entity 3
Xxxxxxxxx Xxxx
Entity 1 Xxxxxxxxxx
xxxxxx
Entity 2 Xxxxx xxxxxxxxx
Entity 3
Xxxxxxxxx Xxxx Entity 1 Xxxxxxxxxx xxxxxx
3
吉林大学坐落在北 国春城 -长春市, 它创立于1946年, 前身为东北行政学 院,是教育部直属 的一所全国重点综
合性大学。
吉林大学坐落在北 国春城 -长春市, 它创立于1946年, 前身为东北行政学 院,是教育部直属 的一所全国重点综
合性大学。
吉林大学 它
东北行政学院
位置 关系
机构成 立时间
1946年
输入:特征文件 输出:分类模型文件 开源的SVM工具包:Libsvm 2.89
.tw/~cjlin/libsvm/
开源的MaxEnt工具包:OpenNLP.maxent
/
15
识别过程-特征提取
领域收缩:乐坛、电子产品、教育、体育等
研究方法可移植,也是某种意义上的通用域
8
提纲
课题简介 主要研究内容 研究方法和实施方案 下一步工作
9
主要研究内容
音乐实体关系抽取
基于有指导的学习方法
建立音乐 实体关系 类型体系
构建语料 库
特征提取
分类模型 训练
10
提纲
课题简介 主要研究内容 研究方法和实施方案
6
什么是音乐实体关系抽取?
在音乐实体识别的基础上,判断一个句子中 任意两个实体是否属于我们预先定义好的某 种关系。
例子:08年12月,蔡依林3000万改签华纳 唱片。
7
为什么选择音乐领域?
通用域的难点
没有完善的关系类型体系 建立关系类型体系困难
关系类型太多 关系如何命名呢? 覆盖面要尽可能全 细化、准确… …
特征提取器
clas实s 体1的类F型1
F2
F3 F4 F5 F6 F7 …
实体2的类型
实体1和实体2之间的第一个动词
艺术家-实 实歌体 体曲12前 后面 面N的 的a第 第一 一个 个N词 词c
演绎 和 。
c
wp …
实体1前面第一个词的词性
实体2后面第一个词的词性
……
14
训练过程-SVM or MaxEnt
北国春城 长春市
附属
关系 教育部
信息抽取:
将非结构化文本转换成 结构化数据,主要包括 实体识别、关系抽取、
共指消解等
关系表
Entity 1 Xxxxxxxxxx
xxxxxx
Entity 2 Xxxxx xxxxxxxxx
Entity 3
Xxxxxxxxx Xxxx
Entity 1 Xxxxxxxxxx
大会上,任命原山东大学校长展涛为吉林大学校长。
音乐命名实体(Music Named Entity, MNE)
艺术家名、艺术家别名、歌曲名、专辑名、唱片公司 名、时间
例子:亚洲天王周杰伦发行第六张国语专辑《十一月 的萧邦》,新专辑包含了《夜曲》、《发如雪》等十 二首动听的歌,大家可以在专辑当中,嗅出周董潜藏 的浪漫古典因子。