当前位置：文档之家› 第14章知识图谱的落地与实践

第14章知识图谱的落地与实践

12
领域行业应用对于知识需求难以闭合
领域知识
开放知识行业应用中的知识需求难以封闭于预设的领域知识边界内
13
DKG与GKG的关系-联系
• GKG对于DKG有着显著支撑作用
领域KG
领域KG … 领域KG
Deep
补充完善
1.提供高质量的事实 2.提供基本的领域Schema
通用知识图谱
Wide
通用知识图谱与领域知识图谱的关系
Taxonomy中存在环
• 知识更新
• E.g., “战狼同款饰品”
基于图中环结构的自动错误 isA关系识别方法。Taxonomy 中的环倾向与包含错误isA关系
基于Taxonomy中传递性推断的缺失关系推断
28
7.8 人工干预
• 目标
• 提升知识图谱的质量
• 步骤
• 人工编辑
• 知识编辑工具支持用户添加、编辑和修改
• 众包构建
• 利用众包手段将很多知识获取任务分发下去
• 《未来人机区分》：利用知识问答形式的验证码来做知识获取
知识工场实验室推出的KADE 系统，能够所见即所得的知识图谱编辑
基于文本理解的超级验证码可以实现大规模众包化知识获取
29
8、DKG如何评价？
质量（准）
规模（全）
实时（新）
DBpedia Ontology, /server/ontology/cl2a2sses/
7.2 明确数据来源
• 目标
• 明确建立领域知识图谱的数据来源结构化数据
D2R转化器
• 来源分类
• 互联网上的领域百科爬取 • 通用百科图谱的导出 • 内部业务数据的转换 • 外部业务系统的导入
• 6、领域知识图谱的知识如何 • 13、领域知识图谱还存在哪些
表示？
挑战？
8
1、什么是领域知识图谱？
• Knowledge Graph is a large scale semantic network
• Consisting of entities/concepts as well as the semantic relationships among them
实体文本实体化
实体同义词
用
理解图片实体化
同义实体识别
搜索推荐
AVP检索 Type检索描述检索
意图理解
文本文档摘要理解文档标签化
文本相似性文本提问
对答
知识库问答知识库对话
领域数据标注
关系标注
概念标注
三元组补全
错误检测
传递性推理
清洗
补全类别补全
纠
错
众包反馈
推理
众包反馈
属性补全
优点高度自动化效率高
未来智能化
以政府领域知识图谱为例
数据融合
政府治理
共享开放
决策分析
创新应用
为政务数据的普适融合提供必要的元数据
为政务数据的理解与洞察提供丰富的背景知识
为政府治理的决策分析提供可解释依据
为基于政府数据的深度应用提供推理框架
政府治理领域知识图谱
5、领域知识图谱系统的生命周期？
《知识图谱: 概念与技术》
第 14 讲知识图谱落地与实践
肖仰华复旦大学 shawyh@
概述
2018/8/30
第 1 章：知识图谱概述
2
产知业识化概图览谱产业概览
底层支撑系统与产品
1）支撑知识图谱运作的混合型系统，提供高效稳定的查询； 2）领域知识图谱构建的工具集成系统，提供知识图谱构建能力
• 步骤
• 识别领域的高质量词汇 • 识别同义词 • 识别缩写词 • 识别领域的常见情感词
“川普” “特朗普” “Trump” “特朗普”
Jiawei Han, etc.,. Mining Quality Phrases from Massive Text Corpora
24
7.4 实体发现
• 目标
2018/8/30
第 1 章：知识图谱概述
3
技术体系
Hale Waihona Puke 服务百科实体知识库信息智能问答链接验证码抽取水军
数据
商情图谱
工商、产品、投融资、诉讼、专利软著、商标
百科图谱
人物、字词、地理、经济、军事、科学、社会
其他图谱
影视、音乐法律、食物
系统
智能信息获取
图数据管理
知识图谱能力体系
应
DKG
30
9、DKG如何存储？
27
7.7 质量控制
• 目标
• 提升知识图谱的质量
• 步骤
• 知识补全
• 基于预定义规则：E.g., “如果一个人出生是中国，推断其国籍也可能是中国”
• 从外部互联网文本数据进行补充： E.g., 鲁迅身高，需要从互联网文本寻找答案进行补充”
• 知识纠错
• 基于规则
• 互逆属性纠错：A 妻子 B， B 老公 C • 图结构纠错：概念和实例构成的
版本更迭
版本更迭
SameAs外链
外 DBpedia类别链接链
中英文跨语言链接
更局点同步
新
周期更新主动更新基于日志的更新
构建
标注
远程监督样本优化
众包
抽取
实体识别
实体链接
关系抽取
关系分类体系
构建
概念识别
概念抽取
中文 OpenIE
纯文本事实抽取
半结构化数据抽取
融合
属性值分割属性融合
（复旦大学，类别，公立大学，121.4989（经度），31.2932（纬度）
（Tesla Model S，视频，“//123.avi”）
20
7、DKG如何构建？
领域知识图谱构建的基本流程
7.1 模式设计
• 目标
• 把认知领域的基本框架赋予机器
• 步骤
• 概念层设计
• 指定领域的基本概念，以及概念之间subclassof关系 • E.g.,足球领域，足球运动员是运动员的子类
智能数据获取系统图数据库系统
知识库构建工具集
KW
知识图谱数据与服务
构建大规模通用知识图谱和领域图谱，为机器认知提供背景知识
百科图谱商情图谱垂直图谱
知识图谱咨询与方案
提供领域知识图谱构建与应用咨询服务或落地解决方案，给华为、电信、移动、阿里巴巴、滴滴等数十家应用单位提供了知识图谱解决方案。
• 文本、图片、视频
Tesla Model S
通过文字、图片和视频来表示实体“Tesla Model S”
（贝拉克·奥巴马，职业，美国总统，2009年1月20日，2017年1月20日）
（唐纳德·特朗普，职业，美国总统，2017年1月20日，--）
（Tesla Model S，图片，“//123.jpg”）
• 属性定义
• 明确领域的基本属性，明确属性的适用概念，属性值的类别或者范围
• E.g., “效力球队” 的 domain为 “足球运动员”，range为 “球队”
• 约束规则定义
• E.g., 多值属性约束：出生日期（单值约束），获得奖项（多值约束）
• E.g., 互逆属性约束：“隶属球员” 和 “效力球队” 为互逆属性
• 识别出领域中的常见实体
• 意义
• 理解领域文本和数据的关键一步
• 步骤
• 实体识别 • 实体归类 • 实体链接
Guillaume Lample etc., Neural Architectures for Named Entity Recognition
知识工场实验室的实体链接DEMO
25
7.5 关系发现
• 目标
• 填充知识库中的关系实例
• 问题分类
• 关系分类
• 将给定的实体对（entity pairs）分类到某个已知关系
• “李娜”-“姜山” “丈夫”，“教练”
• 关系抽取
Stanford Open Information Extraction, https:///software/openie.html
• 从文本中抽取某个实体对的具体关系
• “姜山曾先后两次成为李娜的教练” (“李娜”，“教练”， “姜山”）
• 开放关系抽取
• 从文本中抽取出实体对之间的关系描述
• “上海隔东中国海与日本九州岛相望” (“上海”，“相望”， “日本九州岛”）
26
7.6 知识融合
• 目标
• 融合来自不同数据源的知识
• Domain-specific Knowledge Graph
• Knowledge graphs for specific domains
医学知识库
代码知识库
军事知识库
电信知识库
工商知识库
电商知识库
知识图谱富含实体、概念、属性、关系等信息，使得机器理解与解释成为可能
计算机知识库
网络运维知识库
一带一路知识库
各类领域知识图谱
9
NoKG (Not only KG): 从“小”知识到“大”知识
Ontology,Frame Logic rules
• 传统知识工程，专家构建，代价高昂，规模有限；知识边界易于突破，难以适应大数据时代开放应用到规模化需求
• 大规模开放应用需要“大”知识（大规模知识库）
Bayesian network Decision tree
Big Knowledge
Small knowledge+ big data= big knowledge 知识图谱引领知识工程复兴

e商务文档

第14章知识图谱的落地与实践

相关文档推荐：

e商务文档

第14章 知识图谱的落地与实践

相关文档推荐：

第14章知识图谱的落地与实践