当前位置:文档之家› 知识图谱和问答系统

知识图谱和问答系统

知识图谱和问答系统一、引子在讨论知识图谱和问答系统之前,先给出几篇以前的文章。

第一篇文章是《立委科普:问答系统的前生今世》,以前也发过,再发一下。

详见博文:/blog-362400-436555.html下一个姐妹篇《立委科普:自动回答How 与Why 的问题》。

这篇文章详细谈谈问答系统中的How类型问题和Why类型问题。

这篇已经太长,收住吧。

希望读者您不觉得太枯燥,如果有所收获,则幸甚。

谢谢您的阅览。

How 类型的问题搜寻的是解决方案,其实也不好回答,同一个问题往往有多种解决档案,譬如治疗一个疾病,可以用各类药品,也可以用其他疗法。

因此,比较完美地回答这个How 类型的问题也就成为问答系统研究中公认的难题之一。

Why 类型的问题是要寻找一个现象的缘由或动机。

这些原因有些是显性表达,更多的则是隐性表达,而且几乎所有的原因都不是用几个简单的词或短语就可以表达清楚的,找到这些答案,并以合适的方式整合给用户,自然是一个很大的难题。

第三篇文章《立委科普:从产业角度说说NLP这个行当》,这是几年前吹的牛皮。

详见李维的博文:/blog-362400-434811.html。

由于也很相关,所以也放在这里。

NLP技术的工业可行性我认为已经完全被证明了,虽然很多人也许还没有意识到。

证明的实例表现在我们解决了三个信息搜索的难题:搜索How类型问题的难题;搜索Why类型问题的难题;对客户反馈情报及其动机的抽取(譬如客户对一个产品的好恶)。

前两个问题是问答搜索业界公认的最难类型的题目,第三个题目涉及的是语言现象中较难把握的主观性语言(subjective language),并非NLP中通常面对的客观性语言(objective language)。

这类从文本中提取主观性语言的技术,即情感提取(sentiment extraction)成为语言处理最难的课题之一。

从问答系统角度来看,回答Who、When、Where等实体事实型(entity factoid)问题比较简单,技术相对成熟,最突出的表现就是IBM的问答系统赢得美国家喻户晓的电视智力竞赛Jeopardy的冠军。

Jeopardy的大多数问题是属于实体事实类的问题,而这类问题的处理技术相对成熟。

电脑打败了人脑,详见COMPUTER CRUSHES HUMAN 'JEOPARDY!' CHAMPS。

具体细节就不谈了,以后有机会再论。

总之,这三大公认的难题在过去五年中被我们一个一个解决,标志了作为实用技术的NLP 已经过了需要证明自己的阶段。

二、问答系统在搜索引擎中的使用现状由于各种缘由,整个行业的现状是慢了半拍。

而我们自己做的产品虽然也大数据了,云端了,也有全球用户了,但实际上平台还是不够大。

我们的HOW QA系统实际已经部署五六年了,可行性和有效性应该说没有什么值得怀疑的了。

从理论上讲,我们的系统是open domain 的,而且很容易对接上搜索引擎,因此任何一个搜索巨头都可以用上这个技术。

对接方式也特别简单,就是在Query Plan模块中判断一下查询中是否含有How QA,有就去调用这个系统。

调用以后的结果一定比搜索引擎现有的结果漂亮很多。

但是各大巨头做了知识图谱,用到了What QA,还没有任何一家用到了How QA,莫非How型问题不常见么,或用处不大么?当然不是。

How QA没有被巨头商用的原因基本上就是巨头并不总是看得见小公司的创新。

在另一方面,因为平台不够大,商业价值不够有力,最后这个靠向用户收费的产品还是歇菜了。

商业模式没有让它赚钱,歇菜是自然的。

可对于目前主流的搜索引擎的商业模式,靠的不是向最终用户收费,而是提高用户的体验和粘性,然后向广告主收费。

这种情形下,这个用图谱来支持问答的技术就应该可以开花结果的。

当然这一切就是一个时间问题。

最终一定是成为搜索的一个部分的,这一点没有疑问。

知识图谱回答了What 和Who的实体类事实型问题以后,回答更难的How和Why 的问题是搜索变得越来越智能的必由之路。

话说回来,甚至连业界公认已经成熟的factoid questions (when、where 之类的问题),搜索巨头也还没有大规模集成和部署,所以更难的问题迟迟不见动静也就可以理解了。

巨头有巨头的考虑,我们技术人是搞不懂的。

成本应该是一个考虑因素,知识图谱的实现和维护成本肯定比关键词索引高很多。

甚至有群友也说了,为什么搜索要改进啊,如果不进一步跳跃性改进就已经有的赚,提高用户体验就没有迫切性。

谁知道,也许还真是这么回事儿。

三、我们在How QA 上做的工作先发一张我和我搭档的合影照片,他是一个公司的创始人,当年我俩一起把How QA商业化,市场需求也是我的搭档先提出来的。

图1:李维与搭档麦克合影还有两个相关的帖子,是在隔壁的泥沙龙讨论搜索与NLP关系时整理的,一并放在这里做为背景和参考。

一篇是《parsing是引擎的核武器,再论NLP与搜索》,详见博文:/home.php?mod=space&uid=362400&do=blog&id=902849。

这篇文章的相关的内容有:问答系统有两类。

一类是针对可以预料的问题,事先做信息抽取,然后索引到库里去支持问答。

这类问题的召回率很高,精度也高,但是没有实时检索的灵活性和以不变应万变的效果。

另一类问答系统就是对通用搜索的直接延伸。

利用关键词索引先过滤,把搜罗来的相关网页,在线分析,深度分析后找到答案。

这个路子技术上是可行的。

应对所谓事实型问题(Who、Where、When类问题)是有效的。

但是复杂问题如how、why,还是要走第一类的路线。

为什么可行?因为我们的深度分析是线性时间复杂度,在现代的硬件条件下根本不是问题。

不管分析有多深入、多精细,比起相关接口之间的延误,分析其实是小头,因此在线分析已经不是性能的瓶颈了。

总之,技术上可以做到立等可取。

另一方面,对于常见的问题,互联网在线问答系统的召回率根本就不是问题,这是因为网上的冗余信息太多。

无论多不堪的召回率,也不是问题。

比如,问2014年诺贝尔物理奖得主是谁。

这类问题,网上有上百万个答案在。

如果关键词过滤了一个子集,里面有几十万答案,少了一个量级,也没问题。

假设在线分析只召回其中的十分之一,又少了一个量级,那还有几万个实例,这足以满足统计的要求,来坐实NLP得来的答案,可以弥补精度上可能的偏差。

另一篇文章是《创新,失败,再创新,再失败,直至看上去没失败》,详见李维的博文:/home.php?mod=space&uid=3624 00&do=blog&id=902931。

这一篇笔记与今天要讲的题目最相关,提供了详细的背景信息。

有些做出来很漂亮的系统,后来市场上没站住。

现身说法,举近年来作者亲身经历的NLP产品化的例子。

我们曾和Elsevier签了一个千万美元以上的合同,做一个世界上绝无仅有的,本质上能回答How QA的问答系统。

这个系统的市场起源是这样一种需要,科研人员和产品设计师们在创新的时候,需要查询文献,看前人都做过怎样的工作,可以借鉴。

设计要求是,给定任一问题,例如,how to handle tooth decay,或规定任一功能,例如,how to increase bone density,要求系统从文献中抽取挖掘所有的解决办法(solutions),分门别类呈现给用户。

众所周知,How问题是问答系统中最难回答的问题之一,因为涉及的答案各式各样,比起when、where、who 这样的事实型问题难度大得多。

可是,我们有基于深度分析的信息抽取,较好地解决了这个难题。

系统交货以后,用的人喜欢得不得了,反馈极佳。

反正世界上没有一个机器可以回答这么广泛的how 难题。

无论是如何治疗疾病,还是如何泡妞,或者如何成为百万富翁,只要你能想到的问题,我们的系统---- illumin8,都可以回答。

给你这个世界上讨论过这个问题的所有答案,整合到一起,一目了然。

而且是动态呈现,你可以对任何解决方案找到最终原始出处和上下文,你也可以进一步找这个方案的因果关系,看得失优劣。

一下子成了科学家和产品设计师搜集前人工作的利器。

Elsevier里面负责这块的小团队来拜访我,也都夸这个系统做得好,合作是非常愉快的。

结果Elsevier在其全球用户的系统中用了五六年,去年终结了,合同没有续约。

我作为设计者很感伤。

特定类型问题的问答系统可以看成是新一代的垂直搜索引擎,我们把它叫作research tool。

这么好的技术创新,填补的产品空白,世界上没有第二家系统可以弥补,至少目前如此。

可是经历了六年还是归于失败。

Elsevier的全球用户都使用这个产品这么些年,但是发现还是无法拿它盈利。

尽管用的人还是喜欢,也还是掐了。

光技术好还是不行,不熟悉市场和商业模式,也还是死路一条。

eHow的SEO有一阵在Google上做得铺天盖地的,但凡搜个How QA的查询,头一条就是eHow提供的结果,而他们就是雇了很多人,快速编纂各种How的小tip,不用自动的方法。

那些How QA在Youtube上也红火得不得了,主要集中在家用方面的FAQ of How上。

例如如何换机油、如何换轮胎之类。

这种针对FAQ 做How QA是有道理的,可以赚得高点击,从而可以用广告费来制作很精良到位的内容以满足需求。

但对于开放性的How QA,人工方式的FAQ,自然是不行的。

四、到底什么是知识图谱我给的标题是《知识图谱和问答系统》,这年头只要提到知识图谱就吸引眼球了。

这是谷歌等“盗用”了学界的信息抽取(Information Extraction,IE)的概念而火起来的时髦词。

谷歌把这个行业提到公众台面了。

过些年后,大家也不必再提啥IE 了,都用知识图谱代替得了。

真的就是一回事儿,不过谷歌嗓门大,又在搜索引擎里把What和Who的问题给用知识图谱解决了。

过去吵死了的概念,只能在业界。

现在一换门面,大众知。

信息抽取是个动词,说的是过程。

知识图谱是这个动作的结果,存在库里。

相当于我们以前的IE Store,就是类似于关键词索引一样存取关系的库。

知识图谱的名字与应用更近,更接地气。

因为IE作为基础只是脱机处理,其结果才是联机去帮助回答问题的。

五、知识图谱和问答系统的关系回到正题,知识图谱与问答系统。

问答系统需要IE的支持,我们很多年前就极力主张,几篇QA 的论文也是强调的这个。

但这只对于预先定义好的问题有效,因为知识图谱是预先定义的关系。

知道有什么问题,然后去针对性地抽取,这样一来是一打一个准。

但是,这并不是说问答系统只能利用知识图谱来做。

事实上,开始的QA系统,都只有有限量的IE支持,一般都做了实体识别,但没有做图谱。

相关主题