当前位置:文档之家› 知识图谱在大数据中的应用

知识图谱在大数据中的应用


知识图谱的数据来源
• 为了提高搜索质量,特别是提供如对话搜索和复杂问答等新的搜索体验, 我们不仅要求知识图谱包含大量高质量的常识性知识,还要能及时发现 并添加新的知识。
• 知识图谱通过收集来自百科类站点和各种垂直站点的结构化数据来覆盖 大部分常识性知识。这些数据普遍质量较高,更新比较慢
• 通过搜索日志(query log)发现新的实体或新的实体属性从而不断扩 展知识图谱的覆盖率。
知识图谱在大数据中的应用
医疗大数据 李静(li_jing@)
课程提纲
• 初识实施图谱 • 如何描述知识图谱 • 如何展现知识图谱 • 知识图谱的数据来源 • 知识图谱的构建流程 • 知识图谱的实现步骤
Tim Berners-Lee in Olympics Games
• 搜索日志挖掘 • 选择查询作为抽取目标的意义在于其反映了用户最新最广泛的需求,从
中能挖掘出用户感兴趣的实体以及实体对应的属性。而选择页面的标题 作为抽取目标的意义在于标题往往是标题中被找到。
知识图谱的数据来源
• 搜索日志挖掘 • 为了完成上述抽取任务,一个常用的做法是:针对每个类别,挑选出若
知识图谱的数据来源
• 结构化数据 • 各大搜索引擎公司通过收购这些站点或购买其数据来进一步扩充其知识
图谱在特定领域的知识。这样做出于三方面原因:其一、大量爬取这些 站点的数据会占据大量带宽,导致这些站点无法被正常访问;其二、爬 取全站点数据可能会涉及知识产权纠纷;最后,相比静态网页的爬取, Deep Web爬虫需要通过表单填充(Form Filling)技术来获取相关内 容,且解析这些页面中包含的结构化信息需要额外的自动化抽取算法。
知识图谱的数据来源
• 搜索日志挖掘 • 搜索日志是搜索引擎公司积累的宝贵财富。一条搜索日志形如<查询,
点击的页面链接,时间戳>。通过挖掘搜索日志,我们往往可以发现最 新出现的各种实体及其属性,从而保证知识图谱的实时性。这里侧重于 从查询的关键词短语和点击的页面所对应的标题中抽取实体及其属性。
知识图谱的数据来源
知识图谱的数据来源
• 百科类数据 • 维基百科 :通过文章页面(Article Page)抽取各种实体;通过重定
向页面(Redirect Page)获得这些实体的同义词(又称Synonym); 通过去歧义页面(Disambiguation Page)和内链锚文本(Internal Link Anchor Text)获得它们的同音异义词(又称Homonym);通过 概念页面(Category Page)获得各种概念以及其上下位(subclass) 关系;
• 每个实体或概念用一个全局唯一确定的ID来标识,称为它 们的标识符(identifier)。每个属性-值对(attributevalue pair,又称AVP)用来刻画实体的内在特性,而关系 (relation)用来连接两个实体,刻画它们之间的关联。
知识图谱的描述
• 知识图谱亦可被看作是一张巨大的图,图中的节点表示实 体或概念,而图中的边则由属性或关系构成。
知识图谱的数据来源?
知识图谱的规模
• 据不完全统计,Google知识图谱到目前为止包含了5亿个实体和35亿 条事实(形如实体-属性-值,和实体-关系-实体)。
• Google知识图谱是面向全球的,因此包含了实识库中的知识也主要 以中文来描述,其规模略小于Google的
RDF RDF
A
RDF link
RDF RDF
B
RDF links
RDF RDF
RDF links
C
RDF RDF
D
RDF links
RDF RDF
E
链接数据现状-LOD Cloud
• 问题描述
跨语言知识链接
名称
链接 分类
编辑者
知识图谱的实现步骤?
知识获取
知识融合
知识探索 知识利用
知识存储
37
知识图谱的数据来源
• 结构化数据 • 除了百科类的数据,各大搜索引擎公司在构建知识图谱时,还考虑其他
结构化数据。包括如DBpedia 和YAGO 等通用语义数据集,还包括如 MusicBrainz 和DrugBank 等特定领域的知识库。此外,Web上存在大 量高质量的垂直领域站点(如电商网站,点评网站等),这些站点被称 为Deep Web 。它们通过动态网页技术将保存在数据库中的各种领域 相关的结构化数据以HTML表格的形式展现给用户。
知识源 -数据网络
知识获取
知识融合
知识探索 知识利用
知识存储
39
互动百科标签内部链接百科信息框维基百科
知识获取
知识融合
知识探索 知识利用
知识存储
41
存储 索引
• 关系型RDF存储
利用发展30多年的关系型数据库 schema设计工作 需要SPARQL-SQL的转化层 在选择终端时的相对复杂性
知识图谱的数据来源
• 百科类数据 • 通过文章页面关联的开放分类抽取实体所对应的类别;通过信息框
(Infobox)抽取实体所对应百科中文数据不足的 缺陷。此外,Freebase 是另一个重要的百科类的数据源,其包含超过 3900万个实体(其称为Topics)和18亿条事实,规模远大于维基百科。
4
一段真实的经历
背景:9月中旬,法国航空公司发生飞行员为期10天以上的大规模罢工,多次航班因 此取消
语义链接与信息主动推送
背景:9月中旬,法国航空公司发生飞行员为期10天以上的大规模罢工,多次航班因 此取消
知识维网-Web of Data
近两年来,随着Linking Open Data 等项目的全面展 开,语义Web数据源的数量激增,大量RDF数据被发布。互 联网正从仅包含网页和网页之间超链接的文档万维网 (Document Web)转变成包含大量描述各种实体和实体 之间丰富关系的数据万维网(Data Web)
数据万维网-Web of Data
知识图谱的数据来源
• 半结构化数据AVP • 虽然从Deep Web爬取数据并解析其中所包含的结构化信息面临很大
的挑战,各大搜索引擎公司仍在这方面投入了大量精力。一方面, Web上存在大量长尾的结构化站点,这些站点提供的数据与最主流的 相关领域站点所提供的内容具有很强的互补性,因此对这些长尾站点进 行大规模的信息抽取(尤其是实体相关的属性-值对的抽取)对于知识 图谱所含内容的扩展是非常有价值的。
无结构/半结构化内容
表格
数据图 引用, 关键内容, 关系
关系数据库 对齐
外部领域数据
用户数据
通过领域本体进行 编码和丰富内容
知识图谱
• 搜索++ • 推荐 • 垂直应用 • 探索性界面/接口
数据万维网-Web of Data
• 使用语义Web技术
– 在Web上发布结构化数据 – 在不同数据源之间建立连接关系
•行大量调整
• 传统索引用于减少存取花销,这里常用于替代存储
查询规划 查询处理
• 传统的查询规划和处理在由于位于同一系统中而紧密相连,但在RDF 查询处理中,并不一定成立。
42
知识获取
知识融合
知识探索 知识利用
知识存储
43
--
以高 高血 血压 压知 患识 者关 为联

危险因素 处方用药
检验检查指标
高血压知识关联--以高血压患者为例
数据关联建立 数据关联建立
数据关联建立
数据关联建立 数据关联建立
高血压知识关联--以高血压患者为例
知识获取
知识融合
知识探索 知识利用
知识存储
47
高血压知识关联--以高血压患者为例
1 3
2
高血压知识关联--以高血压患者为例
1 2
知识图谱的展现
• 例如,当在搜索引擎中输入“姚明”作为关键词时,我们 发现搜索结果页面的右侧原先用于臵放广告的地方被知识 卡片所取代。广告被移至左上角,而广告下面则显示的是 传统的搜索结果,即匹配关键词的文档列表。这个布局上 的微调也预示着各大搜索引擎在提高用户体验和直接返回 答案方面的决心。
知识图谱的知识图谱,分别为Knowledge Graph、知心和知立方,来改进搜索质量,从而拉开了语义 搜索的序幕。
知识图谱的描述
• “The world is not made of strings , but is made of things.”,知识图谱旨在描述真实世界中存在的各种实体 或概念。
高血压知识关联--以高血压患者为例
医生
科室 医院
团队
疾病
由疾病建立的关联关系示意
谢谢!
• 图模型可用W3C提出的资源描述框架RDF 或属性图 (property graph) 来表示。知识图谱率先由Google提 出,以提高其搜索的质量。
如何展现知识图谱?
文档万维网
链接数据
数据万维网
/2007/Talks/1211-whit-tbl/#%2828%29
知识图谱的展现
• 为了更好地理解知识图谱,我们先来看一下其在搜索中的 展现形式,即知识卡片(又称Knowledge Card)。
• 知识卡片旨在为用户提供更多与搜索内容相关的信息。更 具体地说,知识卡片为用户查询中所包含的实体或返回的 答案提供详细的结构化摘要。从某种意义来说,它是特定 于查询(query specific)的知识图谱。
干属于该类的实体(及相关属性)作为种子(Seeds),找到包含这些 种子的查询和页面标题,形成正则表达式或文法模式。这些模式将被用 于抽取查询和页面标题中出现的其他实体及其属性。如果当前抽取所得 的实体未被包含在知识图谱中,则该实体成为一个新的候选实体。
知识图谱的构建流程?
垂直知识图谱的构建流程
相关主题