当前位置:
文档之家› 第14章 知识图谱的落地与实践
第14章 知识图谱的落地与实践
12
领域行业应用对于知识需求难以闭合
领域知识
开放知识 行业应用中的知识需求难以封闭于预设的领域知识边界内
13
DKG与GKG的关系-联系
• GKG对于DKG有着显著支撑作用
领域KG
领域KG … 领域KG
Deep
补充完善
1.提供高质量的事实 2.提供基本的领域Schema
通用知识图谱
Wide
通用知识图谱与领域知识图谱的关系
Taxonomy中存在环
• 知识更新
• E.g., “战狼同款饰品”
基于图中环结 构的自动错误 isA关系识别方 法。Taxonomy 中的环倾向与 包含错误isA关 系
基于Taxonomy中传递性推断的缺失关系推断
28
7.8 人工干预
• 目标
• 提升知识图谱的质量
• 步骤
• 人工编辑
• 知识编辑工具支持用户添加、编 辑和修改
• 众包构建
• 利用众包手段将很多知识获取任 务分发下去
• 《未来人机区分》:利用知识问 答形式的验证码来做知识获取
知识工场实验 室推出的KADE 系统,能够所 见即所得的知 识图谱编辑
基于文本理解的超级验证码可 以实现大规模众包化知识获取
29
8、DKG如何评价?
质量 (准)
规模 (全)
实时 (新)
DBpedia Ontology, /server/ontology/cl2a2sses/
7.2 明确数据来源
• 目标
• 明确建立领域知识图谱的数据来源 结构化数据
D2R转化器
• 来源分类
• 互联网上的领域百科爬取 • 通用百科图谱的导出 • 内部业务数据的转换 • 外部业务系统的导入
• 6、领域知识图谱的知识如何 • 13、领域知识图谱还存在哪些
表示?
挑战?
8
1、什么是领域知识图谱?
• Knowledge Graph is a large scale semantic network
• Consisting of entities/concepts as well as the semantic relationships among them
实体 文本实体化
实体同义词
用
理解 图片实体化
同义实体识别
搜索 推荐
AVP检索 Type检索 描述检索
意图 理解
文本 文档摘要 理解 文档标签化
文本相似性 文本提问
对答
知识库问答 知识库对话
领域 数据 标注
关系标注
概念标注
三元组补全
错误检测
传递性推理
清 洗
补全 类别补全
纠
错
众包反馈
推理
众包反馈
属性补全
优点 高度自动化 效率高
未来智能化
以政府领域知识图谱为例
数据融合
政府治理
共享开放
决策分析
创新应用
为政务数据的 普适融合提供 必要的元数据
为政务数据的理 解与洞察提供丰 富的背景知识
为政府治理的 决策分析提供 可解释依据
为基于政府数据 的深度应用提供 推理框架
政府治理领 域知识图谱
5、领域知识图谱系统的生命周期?
《知识图谱: 概念与技术》
第 14 讲 知识图谱落地与实践
肖仰华 复旦大学 shawyh@
概述
2018/8/30
第 1 章:知识图谱概述
2
产知业识化概图览谱产业概览
底层支撑系统与产品
1)支撑知识图谱运作的混合型系 统,提供高效稳定的查询; 2)领域知识图谱构建的工具集成 系统,提供知识图谱构建能力
• 步骤
• 识别领域的高质量词汇 • 识别同义词 • 识别缩写词 • 识别领域的常见情感词
“川普” “特朗普” “Trump” “特朗普”
Jiawei Han, etc.,. Mining Quality Phrases from Massive Text Corpora
24
7.4 实体发现
• 目标
2018/8/30
第 1 章:知识图谱概述
3
技术体系
Hale Waihona Puke 服务百科 实体 知识库 信息 智能 问答 链接 验证码 抽取 水军
数据
商情图谱
工商、产品、投融资、 诉讼、专利软著、商标
百科图谱
人物、字词、地理、 经济、军事、科学、社会
其他图谱
影视、音乐 法律、食物
系统
智能信息获取
图数据管理
知识图谱能力体系
应
DKG
30
9、DKG如何存储?
27
7.7 质量控制
• 目标
• 提升知识图谱的质量
• 步骤
• 知识补全
• 基于预定义规则:E.g., “如果一个人 出生是中国,推断其国籍也可能是中 国”
• 从外部互联网文本数据进行补充: E.g., 鲁迅身高,需要从互联网文本寻 找答案进行补充”
• 知识纠错
• 基于规则
• 互逆属性纠错:A 妻子 B, B 老公 C • 图结构纠错:概念和实例构成的
版本更迭
版本更迭
SameAs外链
外 DBpedia类别链接 链
中英文跨语言链接
更 局点同步
新
周期更新 主动更新 基于日志的更新
构 建
标注
远程监督 样本优化
众包
抽取
实体 识别
实体 链接
关系 抽取
关系分 类体系
构建
概念 识别
概念 抽取
中文 OpenIE
纯文本 事实抽取
半结构化 数据抽取
融合
属性值分割 属性融合
(复旦大学,类别,公立大学,121.4989(经度),31.2932(纬度)
(Tesla Model S,视频,“//123.avi”)
20
7、DKG如何构建?
领域知识图谱构建的基本流程
7.1 模式设计
• 目标
• 把认知领域的基本框架赋予机器
• 步骤
• 概念层设计
• 指定领域的基本概念,以及概念之间subclassof关系 • E.g.,足球领域,足球运动员是运动员的子类
智能数据获取系统 图数据库系统
知识库构建工具集
KW
知识图谱数据与服务
构建大规模通用知识图谱和领域图谱, 为机器认知提供背景知识
百科图谱 商情图谱 垂直图谱
知识图谱咨询与方案
提供领域知识图谱构建与应用咨询 服务或落地解决方案,给华为、电 信、移动、阿里巴巴、滴滴等数十 家应用单位提供了知识图谱解决方 案。
• 文本、图片、视频
Tesla Model S
通过文字、图片和视频来表示实体“Tesla Model S”
(贝拉克·奥巴马,职业,美国总统,2009年1月20日,2017年1月20日)
(唐纳德·特朗普,职业,美国总统,2017年1月20日,--)
(Tesla Model S,图片,“//123.jpg”)
• 属性定义
• 明确领域的基本属性,明确属性的适用概念,属性值的 类别或者范围
• E.g., “效力球队” 的 domain为 “足球运动员”,range为 “球队”
• 约束规则定义
• E.g., 多值属性约束:出生日期(单值约束),获得奖项 (多值约束)
• E.g., 互逆属性约束:“隶属球员” 和 “效力球队” 为 互逆 属性
• 识别出领域中的常见实体
• 意义
• 理解领域文本和数据的关键一步
• 步骤
• 实体识别 • 实体归类 • 实体链接
Guillaume Lample etc., Neural Architectures for Named Entity Recognition
知识工场实验室的实体链接DEMO
25
7.5 关系发现
• 目标
• 填充知识库中的关系实例
• 问题分类
• 关系分类
• 将给定的实体对(entity pairs)分类到某个已知关系
• “李娜”-“姜山” “丈夫”,“教练”
• 关系抽取
Stanford Open Information Extraction, https:///software/openie.html
• 从文本中抽取某个实体对的具体关系
• “姜山曾先后两次成为李娜的教练” (“李娜”,“教练”, “姜山”)
• 开放关系抽取
• 从文本中抽取出实体对之间的关系描述
• “上海隔东中国海与日本九州岛相望” (“上海”,“相望”, “日本九州岛”)
26
7.6 知识融合
• 目标
• 融合来自不同数据源的知识
• Domain-specific Knowledge Graph
• Knowledge graphs for specific domains
医学知识库
代码知识库
军事知识库
电信知识库
工商知识库
电商知识库
知识图谱富含实体、概念、 属性、关系等信息,使得机 器理解与解释成为可能
计算机知识 库
网络运维知 识库
一带一路知 识库
各类领域知识图谱
9
NoKG (Not only KG): 从“小”知识到“大”知识
Ontology,Frame Logic rules
• 传统知识工程,专家构建,代价高昂,规模有限;知识边 界易于突破,难以适应大数据时代开放应用到规模化需求
• 大规模开放应用需要“大”知识(大规模知识库)
Bayesian network Decision tree
Big Knowledge
Small knowledge+ big data= big knowledge 知识图谱引领知识工程复兴