当前位置：文档之家› 知识图谱

知识图谱

– 所有的操作都建立在HBase之上（HBase是一个开源的非关系型分布式数据库（NoSQL），它参考了谷歌的BigTable建模，实现的编程语言为 Java。它是Apache软件基金会的Hadoop项目的一部分，运行于HDFS文件系统之上，为 Hadoop 提供类似于BigTable 规模的服务。因此，它可以容错地存储海量稀疏的数据。）
PART 0什么是知识图谱
PART 0什么是中文知识图谱
• 本质介绍
– 知识图谱本质上是一种语义网络。其结点代表实体（entity）或者概念（concept），边代表实体/概念之间的各种语义关系。
• 中文知识图谱
– 中文知识图谱（ Chinese Knowledge Graph），最早起源于Google Knowledge Graph 。中文知识图谱的直接推动力来自于一系列实际应用，包括语义搜索、机器问出了其中文知识图谱。
多家网络媒体转载
PART V
知识图谱主要研究什么？
PART V 知识图谱主要研究什么？
• 知识图谱主要包含知识库构建，用户查询理解，数据检索以及结果的可视化展现四个主要的过程。
• 知识库的构建：主要通过将网页中的各种异构的实体信息，通过收集、解析、清理、归一化、合并等步骤建立起实体以及实体属性的集合。
PART IV 中文知识图谱的应用
• 复旦GDM中文知识图谱 • 文本化展示 • 输入一个关键字后，搜索引擎能够准备的知道用户搜索的
关键字含义，并给出相关的知识说明 • 提供知识查询、问题查询、别名搜索、知识源合并等功能 • 图形化展示 • 为了更好的理解知识，采用了图形化引擎进行展示，更好
的表现了语义之间的关系 • 同时，将相关词进行聚类，分成若干类，按类展示，并为
• 具体来说，知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合，并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来，揭示知识领域的动态发展规律。
PART IV
中文知识图谱的应用？
PAR人物的关键词时，会出现该
人物相关的资料，搜索结果以“百科全书”式的方式显示。而如今不只是搜索热门人物，当用户知识图谱的数据来源
– 知识图谱通过收集来自百科类站点和各种垂直站点的结构化数据来覆盖大部分常识性知识。（质量高但更新慢）
– 另一方面，知识图谱通过从各种半结构化数据（形如HTML表格）抽取相关实体的属性-值对来丰富实体的描述。此外，通过搜索日志发现新的实体或新的实体属性从而不断扩展知识图谱的覆盖率。相比高质量的常识性知识，通过数据挖掘抽取得到的知识数据更大，更能反映当前用户的查询需求并能及时发现最新的实体或事实，但其质量相对较差，存在一定的错误。这些知识利用互联网的冗余性在后续的挖掘中通过投票或其他聚合算法来评估其置信度，并通过人工审核加入到知识图谱中。
机器理解文本
PART III
知识图谱方法研究
PART III中文知识图谱研究框架
PART III中文知识图谱研究方法
• 分布式爬虫
– 互联网上存在着丰富的资源，选择合适的资源以及相应的爬取策略至关重要；单台电脑已经无法支持大规模的网页爬取；网站可能存在着限制访问次数、访问出错等问题。因此，提出了多任务、容错、平衡、可设置优先级、多样性的分布式爬虫策略
• 用户查询理解:是将用户输入的自然语言解析成查询知识库的SPARQL语句。
• 数据检索是通过SPARQL语句将知识库中用户需要的实体及属性信息检索出来。云服务在数据检索时的平均响应时间达到了几十毫秒的量级。
• 结果可视化是对检索出来的数据进行富媒体的展现，用户可以对需要的展现样式进行定制和个性化。
– 不一致性的解决（当融合来自不同数据源的信息构成知识图谱时，有一些实体会同时属于两个互斥的类别（如男女），这样就会出现不一致性）。
• 知识图谱上的挖掘
– 推理 – 实体重要性排序（ageRank算法） – 相关实体挖掘
• 知识图谱的更新和维护
感谢您的聆听
PART VI 项目实践
• 从抽取图谱到知识图谱（知识图谱挖掘）
– 实体对齐（方法：聚类，关键在于定义合适的相似度度量。为了解决大规模实体对齐存在的效率问题，各种基于数据划分或分割的算法被提出）。
– 知识图谱schema构建（模式层构建：Google等公司普遍采用的方法是自顶向下（Top-Down）和自底向上（Bottom-Up）相结合的方式。）
每个类标注类标签，这样能更加清楚、直观的理解实体
PART IV 中文知识图谱的应用
• 复旦GDM中文知识图谱 • 深度阅读 • 运用知识图谱，对电子书中出现地词语进行精确、全面解
释，挖掘词语背后的知识，改善阅读体验 • 舆情分析 • 运用知识图谱，对微博进行数据挖掘分析 • 倾听民意，改善民生 • 研究成果已被解放日报、新民晚报等报纸刊登报道，并被
• 知识抽取
– 数据来源丰富，包括百科全书类网站、地理位置信息（POI）网站、输入法词库、搜索引擎语料库、音乐视频小说等门户网站、电子商务网站等
– 从数据源中抽取出高质量的实体/概念集。包括实体抽取、实体映射（不同词表达相同含义）、关系抽取以及实体质量评估。
PART III中文知识图谱研究方法
知识图谱
刘莞玲
PART 0
什么是知识图谱？
PART 0什么是知识图谱
• 知识图谱(Mapping Knowledge Domain）也被称为科学知识图谱，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
PART I Google Knowledge Graph
• Google知识图谱
– Google知识图谱（也称Google知识图）是Google的一个知识库，其使用语义检索从多种来源收集信息，以提高Google搜索的质量。知识图谱2012年加入Google搜索， 2012年5月16日正式发布，知识图谱除了显示其他网站的链接列表，还提供结构化及详细的关于主题的信息。其目标是，用户将能够使用此功能提供的信息来解决他们查询的问题，而不必导航到其他网站并自己汇总信息。
PART VI
知识图谱构建
PART VI 知识图谱构建
• 知识图谱的规模
– Google知识图谱到目前为止包含了5亿个实体和35亿条事实（形如实体-属性-值，和实体-关系-实体）。其知识图谱是面向全球的，因此包含了实体和相关事实的多语言描述。不过相比占主导的英语外，仅包含其他语言（如中文）的知识图谱的规模则小了很多。
PART II
为什么需要构建中文知识图谱？
PART II为什么需要构建中文知识图谱
PART III为什么需要构建中文知识图谱
• 原因：
– 互联网上拥有丰富的资源。但是，大多数的资源都只能被人理解，而机器无法理解，如何让机器像人一样理解文本？
– 现有知识图谱对中文支持不够 – 为此，我们需要构建一个海量的中文知识图谱，帮助
PART IV 中文知识图谱的应用
• 搜狗知立方 • 搜狗在其官方微博中宣称：为了让用户获取信息更简
单，搜狗搜索发布全新的知识库搜索引擎――“知立方”。这是国内搜索引擎行业中首家知识库搜索产品。 • 比如搜索“张学友的电影”，搜狗搜索会在结果上方显示张学友的所有参演过的影片，右侧则展示张学友的人物关系、电视剧、专辑等相关信息，帮助用户更加立体和全面的了解张学友。
• 知识图谱应用
– 允许用户搜索搜索引擎知道的所有事物，人物或者地方，包括地标，名人，城市，球队，建筑，地理特征，电影，天体，艺术作品等等，而且能够显示关于你的查询的实时信息。它是迈向下一代搜索业务关键的第一步，使得搜索智能化，根据用户的意图给出用户想要的结果。
PART I
GOOGLE 用迭代的方式对不同来源的数据进行集成，将相同实体/概念的内容进行融合，特别是多义词之间的融合。具体方法包括：首先找到明显相同的实体/概念对，根据其属性、分类以及相关词，扩充找到更多的相同实体/概念对。依次循环，直至不能找到新的实体/概念对。
• 图数据管理系统
– 基于开源的Hadoop分布式文件系统与分布式数据库，作为大数据存储的基础

e商务文档

知识图谱

相关文档推荐：