当前位置:文档之家› 第14章 知识图谱的落地与实践

第14章 知识图谱的落地与实践

12
领域行业应用对于知识需求难以闭合
领域知识
开放知识 行业应用中的知识需求难以封闭于预设的领域知识边界内
13
DKG与GKG的关系-联系
• GKG对于DKG有着显著支撑作用
领域KG
领域KG … 领域KG
Deep
补充完善
1.提供高质量的事实 2.提供基本的领域Schema
通用知识图谱
Wide
通用知识图谱与领域知识图谱的关系
Taxonomy中存在环
• 知识更新
• E.g., “战狼同款饰品”
基于图中环结 构的自动错误 isA关系识别方 法。Taxonomy 中的环倾向与 包含错误isA关 系
基于Taxonomy中传递性推断的缺失关系推断
28
7.8 人工干预
• 目标
• 提升知识图谱的质量
• 步骤
• 人工编辑
• 知识编辑工具支持用户添加、编 辑和修改
• 众包构建
• 利用众包手段将很多知识获取任 务分发下去
• 《未来人机区分》:利用知识问 答形式的验证码来做知识获取
知识工场实验 室推出的KADE 系统,能够所 见即所得的知 识图谱编辑
基于文本理解的超级验证码可 以实现大规模众包化知识获取
29
8、DKG如何评价?
质量 (准)
规模 (全)
实时 (新)
DBpedia Ontology, /server/ontology/cl2a2sses/
7.2 明确数据来源
• 目标
• 明确建立领域知识图谱的数据来源 结构化数据
D2R转化器
• 来源分类
• 互联网上的领域百科爬取 • 通用百科图谱的导出 • 内部业务数据的转换 • 外部业务系统的导入
• 6、领域知识图谱的知识如何 • 13、领域知识图谱还存在哪些
表示?
挑战?
8
1、什么是领域知识图谱?
• Knowledge Graph is a large scale semantic network
• Consisting of entities/concepts as well as the semantic relationships among them
实体 文本实体化
实体同义词

理解 图片实体化
同义实体识别
搜索 推荐
AVP检索 Type检索 描述检索
意图 理解
文本 文档摘要 理解 文档标签化
文本相似性 文本提问
对答
知识库问答 知识库对话
领域 数据 标注
关系标注
概念标注
三元组补全
错误检测
传递性推理
清 洗
补全 类别补全


众包反馈
推理
众包反馈
属性补全
优点 高度自动化 效率高
未来智能化
以政府领域知识图谱为例
数据融合
政府治理
共享开放
决策分析
创新应用
为政务数据的 普适融合提供 必要的元数据
为政务数据的理 解与洞察提供丰 富的背景知识
为政府治理的 决策分析提供 可解释依据
为基于政府数据 的深度应用提供 推理框架
政府治理领 域知识图谱
5、领域知识图谱系统的生命周期?
《知识图谱: 概念与技术》
第 14 讲 知识图谱落地与实践
肖仰华 复旦大学 shawyh@
概述
2018/8/30
第 1 章:知识图谱概述
2
产知业识化概图览谱产业概览
底层支撑系统与产品
1)支撑知识图谱运作的混合型系 统,提供高效稳定的查询; 2)领域知识图谱构建的工具集成 系统,提供知识图谱构建能力
• 步骤
• 识别领域的高质量词汇 • 识别同义词 • 识别缩写词 • 识别领域的常见情感词
“川普” “特朗普” “Trump” “特朗普”
Jiawei Han, etc.,. Mining Quality Phrases from Massive Text Corpora
24
7.4 实体发现
• 目标
2018/8/30
第 1 章:知识图谱概述
3
技术体系
Hale Waihona Puke 服务百科 实体 知识库 信息 智能 问答 链接 验证码 抽取 水军
数据
商情图谱
工商、产品、投融资、 诉讼、专利软著、商标
百科图谱
人物、字词、地理、 经济、军事、科学、社会
其他图谱
影视、音乐 法律、食物
系统
智能信息获取
图数据管理
知识图谱能力体系

DKG
30
9、DKG如何存储?
27
7.7 质量控制
• 目标
• 提升知识图谱的质量
• 步骤
• 知识补全
• 基于预定义规则:E.g., “如果一个人 出生是中国,推断其国籍也可能是中 国”
• 从外部互联网文本数据进行补充: E.g., 鲁迅身高,需要从互联网文本寻 找答案进行补充”
• 知识纠错
• 基于规则
• 互逆属性纠错:A 妻子 B, B 老公 C • 图结构纠错:概念和实例构成的
版本更迭
版本更迭
SameAs外链
外 DBpedia类别链接 链
中英文跨语言链接
更 局点同步

周期更新 主动更新 基于日志的更新
构 建
标注
远程监督 样本优化
众包
抽取
实体 识别
实体 链接
关系 抽取
关系分 类体系
构建
概念 识别
概念 抽取
中文 OpenIE
纯文本 事实抽取
半结构化 数据抽取
融合
属性值分割 属性融合
(复旦大学,类别,公立大学,121.4989(经度),31.2932(纬度)
(Tesla Model S,视频,“//123.avi”)
20
7、DKG如何构建?
领域知识图谱构建的基本流程
7.1 模式设计
• 目标
• 把认知领域的基本框架赋予机器
• 步骤
• 概念层设计
• 指定领域的基本概念,以及概念之间subclassof关系 • E.g.,足球领域,足球运动员是运动员的子类
智能数据获取系统 图数据库系统
知识库构建工具集
KW
知识图谱数据与服务
构建大规模通用知识图谱和领域图谱, 为机器认知提供背景知识
百科图谱 商情图谱 垂直图谱
知识图谱咨询与方案
提供领域知识图谱构建与应用咨询 服务或落地解决方案,给华为、电 信、移动、阿里巴巴、滴滴等数十 家应用单位提供了知识图谱解决方 案。
• 文本、图片、视频
Tesla Model S
通过文字、图片和视频来表示实体“Tesla Model S”
(贝拉克·奥巴马,职业,美国总统,2009年1月20日,2017年1月20日)
(唐纳德·特朗普,职业,美国总统,2017年1月20日,--)
(Tesla Model S,图片,“//123.jpg”)
• 属性定义
• 明确领域的基本属性,明确属性的适用概念,属性值的 类别或者范围
• E.g., “效力球队” 的 domain为 “足球运动员”,range为 “球队”
• 约束规则定义
• E.g., 多值属性约束:出生日期(单值约束),获得奖项 (多值约束)
• E.g., 互逆属性约束:“隶属球员” 和 “效力球队” 为 互逆 属性
• 识别出领域中的常见实体
• 意义
• 理解领域文本和数据的关键一步
• 步骤
• 实体识别 • 实体归类 • 实体链接
Guillaume Lample etc., Neural Architectures for Named Entity Recognition
知识工场实验室的实体链接DEMO
25
7.5 关系发现
• 目标
• 填充知识库中的关系实例
• 问题分类
• 关系分类
• 将给定的实体对(entity pairs)分类到某个已知关系
• “李娜”-“姜山” “丈夫”,“教练”
• 关系抽取
Stanford Open Information Extraction, https:///software/openie.html
• 从文本中抽取某个实体对的具体关系
• “姜山曾先后两次成为李娜的教练” (“李娜”,“教练”, “姜山”)
• 开放关系抽取
• 从文本中抽取出实体对之间的关系描述
• “上海隔东中国海与日本九州岛相望” (“上海”,“相望”, “日本九州岛”)
26
7.6 知识融合
• 目标
• 融合来自不同数据源的知识
• Domain-specific Knowledge Graph
• Knowledge graphs for specific domains
医学知识库
代码知识库
军事知识库
电信知识库
工商知识库
电商知识库
知识图谱富含实体、概念、 属性、关系等信息,使得机 器理解与解释成为可能
计算机知识 库
网络运维知 识库
一带一路知 识库
各类领域知识图谱
9
NoKG (Not only KG): 从“小”知识到“大”知识
Ontology,Frame Logic rules
• 传统知识工程,专家构建,代价高昂,规模有限;知识边 界易于突破,难以适应大数据时代开放应用到规模化需求
• 大规模开放应用需要“大”知识(大规模知识库)
Bayesian network Decision tree
Big Knowledge
Small knowledge+ big data= big knowledge 知识图谱引领知识工程复兴
相关主题