知识图谱发展由来和关键技术
3
传统知识管理的挑战
传统知识管理需要多角度的信息,比如质量特性需要从故障、检测、维修、 保障等多个角度对产品进行设计分析,数据形态多样、数据蕴含的语义结 构复杂,现有的数据处理方式不能和设计紧密结合,面对复杂业务场景的 智能化处理能力较弱。
知识管理
难以融合多源数据 无法形成知识体系
知识建模
表达能力不足 信息密度较低
知识理解 知识计算 知识推理
图谱构建 知识链接
智慧
沉淀
知识 知识图谱、时空数据
精准的答案 挖掘的模式 推理的结论
语义理解 信息抽取
数据整合
信息
结构化、向量化、集中化
数据
文本 数仓 视频 图片 互联网
图谱索引 时空索引
RDBS 向量索引
全文索引 私有云
从传统知识工程到知识图谱
1960
本体论(Ontology) 和知识工程
万维网之父蒂姆·伯纳斯·李发明 万维网(1991年Niches提出知
识本体的概念)
机构知识库
知识表示和知识组织开始被深入 研究,并广泛应用到各机构单位
的资料整理工作中。
传统知识工程大部分都是在规则明 确、边界清晰、应用封闭的场景取 得的成功。 1、知识获取困难,严重依赖专家 2、知识应用困难,难以适应不同 规则。
哲学概念“本体”被引入到人工 智能领域用来刻画知识。1977年 知识工程被首次提出,专家系统
开始广泛研究
1980s
1989
语义网
从超文本链接到语义链接
1998
知识图谱
谷歌发布了其关于知识的搜索引 擎产品
2002
2012
语义网络
语义网络作为知识表示的一种方 法被提出,主要用于自然语言理
解领域
知识库
Web
图检索系统
图谱策略框架
数据生产平台
数据开放平台
知识图谱构建——结构化数据抽取
以现有的BOM为基础,搭建知识图谱的框架,并形成初始的知识实体。实现基于 BOM的全生命周期数据关联和应用,支持产品需求、设计、分析、仿真、工艺、 制造、运维数据跟踪与追溯。
方案设计
工程设计 EBOM
工艺设计 PBOM
生产制造 MBOM
知识应用
知识难以深度消费 无法支撑智能应用
知识构建
专家维护成本高 领域迁移难度大
各个行业都面临数据爆炸的困境
44ZB 数据爆炸
4亿 卷宗
法律行业
增长率 48%/年
医疗行业
行业数据体量巨大
14大行 业
知识密集型 服务业
3000亿 人力成本
500万 客服行业
行业知识需求广泛
80% 非结构
化
0.4%
/cndbpedia/search
9
知识图谱与人工智能的关系
10
知识图谱的核心关键点
11
知识图谱总体架构
知识图谱是一款具有AI能力的知识图谱生成和管理工具套件,包含知识引入、图谱 构建、图数据库及可视化四个工具。通过集成NLP、信息抽取、文档建模、阅读理 解、机器学习等技术,辅以工程理解,降低知识图谱技术门槛,节省构建图谱人力。
大数据技术使得大规模获取 知识成为可能,而知识图谱 即为一种大规模语义网络。 这样的一个知识规模上的量 变带来了知识效用的质变。
什么是知识图谱
谷歌高级副总裁艾米特·辛格博士指出知识图谱的重要意义: 构成这个世界的是实体,而非字符串(things,not strings) 知识图谱实现对客观世界从字符串描述到结构化语义描述,是对客观世界的知识 映射(mapping world knowledge)。 知识图谱富含实体、概念、属性、关系等信息,使得机器理解与解释成为可能。
知识获取
结构化 解析
知识整合
本体构建
知识补全与扩展
关系挖掘
标签挖掘
评论挖掘
关注点 挖掘
异构数据 关联
知识图谱认知
知识表示
应用技术
搜索
半结构化 知识挖掘
开放 知识挖掘
实体归一 实体融合
知识图谱
知识解析 知识计算
问答 推荐 对话
合作数据 引入
属性归一
知识识推理
AGC
架构与平台
图存储系统
知识图谱发展由来、关键技术和应用
传统知识管理的收集和表现方式
• 传统知识收集更多依赖专家的力量
• 收集的知识以分类、全文 检索等方式,被动的等待 查找。
• 需要的知识点往往淹没在 知识的海洋中。
2
传统管理系统更多的从推送方式进行信息管理
• 传统的管理系统更多的是从推送的方式进行信息整理,不太考虑知识查找和利用
金融行业
利用率低
$2.25/ 条
人工构建 Freebase
转化困难
数据爆炸引发带来知识碎片化,进而影响注意力
在一个信息丰富的世界,大量的信息 内容意味着某种东西的缺乏。无论它 是什么,肯定是因信息消耗引起的缺 乏。而大量的信息消耗的是什么,这 是显而易见的,它消耗的是信息接受 者的注意力。因此信息的丰富促成了 注意力的缺乏。
TXT文档转换 器
PDF文档转换 器
Word文档转换 器
Excel文档转换 器
语音识别
视频解析
小样本标注fine-tune 基于行业规则的远监督 行业预训练语言模型 通用预训练语言模型
知识图谱构建——知识抽取的原理
通过对专家知识的重新梳理,以及结合各个业务中的实体定义,建立行业知识图谱。 并不断结合新的结构化、非结构化文本的分析能力,进行经验学习和反馈学习,经 过经验模型不断的增强,形成认知模型。
运维
设计任务书 需求信息 系统模型 仿真数据 ……
三维模型 二维工程图 技术文件 仿真数据 ……
三维工艺 工艺卡片 技术文件 仿真数据 ……
计划信息 配套表 质量单据 履历书 ……
数据包 故障反馈单 配件表 ……
13
知识图谱构建——非结构化数据抽取
对蕴含与海量自由文本中的知识进行高准确率抽取
——诺贝尔经济学家赫伯特·西蒙
知识碎片化特征: • 它往往是事实的集合而非逻辑的集合 • 它往往简化推理过程 • 它往往由多路径到单一路径 • 它往往不严谨、全面
知识需要进一步整合
在大数据时代,知识工程是从大数据中自动或半自动获取知识,建立基于知识 的系统,以提供互联网智能知识服务。大数据对智能服务的需求,已经从单纯 的搜集获取信息,转变为自动化的知识服务。我们需要利用知识工程为大数据 添加语义 /知识,使数据产生智慧( smart data),完成从数据到信息到知识, 最终到智能应用的转变过程,从而实现对大数据的洞察、提供用户关心问题的 答案、为决策提供支持、改进用户体验等目标。