当前位置:文档之家› 知识图谱

知识图谱

– 所有的操作都建立在HBase之上(HBase是一个开源的非关系型分 布式数据库(NoSQL),它参考了谷歌的BigTable建模,实现的编 程语言为 Java。它是Apache软件基金会的Hadoop项目的一部分, 运行于HDFS文件系统之上,为 Hadoop 提供类似于BigTable 规模的 服务。因此,它可以容错地存储海量稀疏的数据。)
PART 0什么是知识图谱
PART 0什么是中文知识图谱
• 本质介绍
– 知识图谱本质上是一种语义网络。其结点代表实体(entity)或者概 念(concept),边代表实体/概念之间的各种语义关系。
• 中文知识图谱
– 中文知识图谱( Chinese Knowledge Graph),最早起源于Google Knowledge Graph 。中文知识图谱的直接推动力来自于一系列实际应 用,包括语义搜索、机器问出了其中文知识图谱。
多家网络媒体转载
PART V
知识图谱主要研究什么?
PART V 知识图谱主要研究什么?
• 知识图谱主要包含知识库构建,用户查询理解,数据检索 以及结果的可视化展现四个主要的过程。
• 知识库的构建:主要通过将网页中的各种异构的实体信息, 通过收集、解析、清理、归一化、合并等步骤建立起实体 以及实体属性的集合。
PART IV 中文知识图谱的应用
• 复旦GDM中文知识图谱 • 文本化展示 • 输入一个关键字后,搜索引擎能够准备的知道用户搜索的
关键字含义,并给出相关的知识说明 • 提供知识查询、问题查询、别名搜索、知识源合并等功能 • 图形化展示 • 为了更好的理解知识,采用了图形化引擎进行展示,更好
的表现了语义之间的关系 • 同时,将相关词进行聚类,分成若干类,按类展示,并为
• 具体来说,知识图谱是通过将应用数学、图形学、信息可 视化技术、信息科学等学科的理论与方法与计量学引文分 析、共现分析等方法结合,并利用可视化的图谱形象地展 示学科的核心结构、发展历史、前沿领域以及整体知识架 构达到多学科融合目的的现代理论。它把复杂的知识领域 通过数据挖掘、信息处理、知识计量和图形绘制而显示出 来,揭示知识领域的动态发展规律。
PART IV
中文知识图谱的应用?
PAR人物的关键词时,会出现该
人物相关的资料,搜索结果以“百科全书”式的方式显示。 而如今不只是搜索热门人物,当用户 知识图谱的数据来源
– 知识图谱通过收集来自百科类站点和各种垂直站点的结构化数据 来覆盖大部分常识性知识。(质量高但更新慢)
– 另一方面,知识图谱通过从各种半结构化数据(形如HTML表格) 抽取相关实体的属性-值对来丰富实体的描述。此外,通过搜索日 志发现新的实体或新的实体属性从而不断扩展知识图谱的覆盖率。 相比高质量的常识性知识,通过数据挖掘抽取得到的知识数据更 大,更能反映当前用户的查询需求并能及时发现最新的实体或事 实,但其质量相对较差,存在一定的错误。这些知识利用互联网 的冗余性在后续的挖掘中通过投票或其他聚合算法来评估其置信 度,并通过人工审核加入到知识图谱中。
机器理解文本
PART III
知识图谱方法研究
PART III中文知识图谱研究框架
PART III中文知识图谱研究方法
• 分布式爬虫
– 互联网上存在着丰富的资源,选择合适的资源以及相应的爬取策 略至关重要;单台电脑已经无法支持大规模的网页爬取;网站可 能存在着限制访问次数、访问出错等问题。因此,提出了多任务、 容错、平衡、可设置优先级、多样性的分布式爬虫策略
• 用户查询理解:是将用户输入的自然语言解析成查询知识库 的SPARQL语句。
• 数据检索是通过SPARQL语句将知识库中用户需要的实体及 属性信息检索出来。云服务在数据检索时的平均响应时间 达到了几十毫秒的量级。
• 结果可视化是对检索出来的数据进行富媒体的展现,用户 可以对需要的展现样式进行定制和个性化。
– 不一致性的解决(当融合来自不同数据源的信息构成知识图谱时,有 一些实体会同时属于两个互斥的类别(如男女),这样就会出现不一 致性)。
• 知识图谱上的挖掘
– 推理 – 实体重要性排序(ageRank算法) – 相关实体挖掘
• 知识图谱的更新和维护
感谢您的聆听
PART VI 项目实践
• 从抽取图谱到知识图谱(知识图谱挖掘)
– 实体对齐(方法:聚类,关键在于定义合适的相似度度量。为了解决 大规模实体对齐存在的效率问题,各种基于数据划分或分割的算法被 提出)。
– 知识图谱schema构建(模式层构建:Google等公司普遍采用的方法是 自顶向下(Top-Down)和自底向上(Bottom-Up)相结合的方式。)
每个类标注类标签,这样能更加清楚、直观的理解实体
PART IV 中文知识图谱的应用
• 复旦GDM中文知识图谱 • 深度阅读 • 运用知识图谱,对电子书中出现地词语进行精确、全面解
释,挖掘词语背后的知识,改善阅读体验 • 舆情分析 • 运用知识图谱,对微博进行数据挖掘分析 • 倾听民意,改善民生 • 研究成果已被解放日报、新民晚报等报纸刊登报道,并被
• 知识抽取
– 数据来源丰富,包括百科全书类网站、地理位置信息(POI)网站、 输入法词库、搜索引擎语料库、音乐视频小说等门户网站、电子 商务网站等
– 从数据源中抽取出高质量的实体/概念集。包括实体抽取、实体映 射(不同词表达相同含义)、关系抽取以及实体质量评估。
PART III中文知识图谱研究方法
知识图谱
刘莞玲
PART 0
什么是知识图谱?
PART 0什么是知识图谱
• 知识图谱(Mapping Knowledge Domain)也被称为科学知识 图谱,在图书情报界称为知识域可视化或知识领域映射地 图,是显示知识发展进程与结构关系的一系列各种不同的 图形,用可视化技术描述知识资源及其载体,挖掘、分析、 构建、绘制和显示知识及它们之间的相互联系。
PART I Google Knowledge Graph
• Google知识图谱
– Google知识图谱(也称Google知识图)是Google的一个 知识库,其使用语义检索从多种来源收集信息,以提 高Google搜索的质量。知识图谱2012年加入Google搜索, 2012年5月16日正式发布,知识图谱除了显示其他网站 的链接列表,还提供结构化及详细的关于主题的信息。 其目标是,用户将能够使用此功能提供的信息来解决 他们查询的问题,而不必导航到其他网站并自己汇总 信息。
PART VI
知识图谱构建
PART VI 知识图谱构建
• 知识图谱的规模
– Google知识图谱到目前为止包含了5亿个实体和35亿条事实(形如 实体-属性-值,和实体-关系-实体)。其知识图谱是面向全球的, 因此包含了实体和相关事实的多语言描述。不过相比占主导的英 语外,仅包含其他语言(如中文)的知识图谱的规模则小了很多。
PART II
为什么需要构建中文知识图谱?
PART II为什么需要构建中文知识图谱
PART III为什么需要构建中文知识图谱
• 原因:
– 互联网上拥有丰富的资源。但是,大多数的资源都只 能被人理解,而机器无法理解,如何让机器像人一样 理解文本?
– 现有知识图谱对中文支持不够 – 为此,我们需要构建一个海量的中文知识图谱,帮助
PART IV 中文知识图谱的应用
• 搜狗知立方 • 搜狗在其官方微博中宣称:为了让用户获取信息更简
单,搜狗搜索发布全新的知识库搜索引擎――“知立方”。 这是国内搜索引擎行业中首家知识库搜索产品。 • 比如搜索“张学友的电影”,搜狗搜索会在结果上方 显示张学友的所有参演过的影片,右侧则展示张学友的人 物关系、电视剧、专辑等相关信息,帮助用户更加立体和 全面的了解张学友。
• 知识图谱应用
– 允许用户搜索搜索引擎知道的所有事物,人物或者地方,包括地标, 名人,城市, 球队,建筑,地理特征,电影,天体,艺术作品等等, 而且能够显示关于你的查询的实时信息。它是迈向下一代搜索业务关 键的第一步,使得搜索智能化,根据用户的意图给出用户想要的结果。
PART I
GOOGLE 用迭代的方式对不同来源的数据进行集成,将相同实体/概念的 内容进行融合,特别是多义词之间的融合。具体方法包括:首先 找到明显相同的实体/概念对,根据其属性、分类以及相关词,扩 充找到更多的相同实体/概念对。依次循环,直至不能找到新的实 体/概念对。
• 图数据管理系统
– 基于开源的Hadoop分布式文件系统与分布式数据库,作为大数据 存储的基础
相关主题