1、阐述互联网搜索系统的基本框架,比较当前主流中文互联网搜索系统的优缺点,并讨论如何改善现有中文搜索引擎。
简单地说,搜索引擎由抓取器、索引器、排序器、用户界面组成。
抓取器从互联网上抓取网页,将垃圾网页过滤;索引器分析网页的内容,计算网页的重要度,将网页索引;用户界面接受查询语句,分析查询语句的内容;排序器从索引中检索出含有查询词的网页,实行查询语句与网页的匹配,将网页按相关度、重要度等进行排序;用户界面将排序结果展示给用户,同时收集用户搜索行为数据。
百度的优点:1、对于中国人的阅读和浏览更为熟悉,服务更加本土化2、提供RSS新闻订阅服务3、提供历史和各省市新闻查阅百度的缺点:1、页面布局不合理页面没有充分利用2、更新时间迅速的优势没有充分发挥3、商业味太重,你搜索的关键字的首页基本都价排名出价高的企业占据了,很难找到你需要的真正自然搜索的结果,百度的搜索排名技术不够权威;4、搜索结果中广告、垃圾网站和死链比较多Google的优点:1、容量大和范围广:其数据库如今是最大的,包括了PDF、DOC、PS及其他许多文件类型。
2、易用性较强。
3、根据站点的链接数和权威性进行相关性排序。
4、网页缓存归档,浏览过的网页被编入索引。
Google的缺点:1、搜索特性有限,没有嵌套搜索,没有截词搜索,不支持全部的布尔逻辑检索。
2、链接搜索必须准确,而且不完整。
3、只能把网页的前101KB和PDF的大约前120KB编入索引。
可能会在不告诉你的情况下,检索复数/单数、同义词和语法变体。
4、死链率比较高,中文网站检索的更新频率不够高,不能及时淘汰过时的链接。
雅虎的优点:1、搜索引擎数据库庞大而且新颖。
2、包括页面的缓存拷贝。
3、也包括指向雅虎目录的链接。
4、支持全部的布尔逻辑检索。
雅虎的缺点:1、缺少某些高级的搜索特性,譬如截词搜索。
2、只能把网页的前500KB(不过仍超过Google的101KB)编入索引。
3、连接搜索需要加入http://。
包括有些付费才能加入的站点。
4、死链率较高而且缺少一些应有的高级搜索功能。
5、搜索结果的描述和在用户搜索过程中的提示说明也不太清晰、明了,搜索的易用性稍差。
1“百度”全球最大的中文搜索引擎,也是人们最常用的搜索引擎之一,常用于搜索网页、图片和mp3。
搜索结果中广告、垃圾网站和死链比较多。
2、“Google”是功能强大,易用性最强的搜索网站,搜索速度快而且提供了最丰富的高级搜索功能。
死链率比较高是Google最大的问题,中文网站检索的更新频率不够高,不能及时淘汰已经过时的链接。
虽然通过“网页快照”功能,可以减少目标页面不存在的现象,但Google的“网页快照”功能在国内经常出现不可访问的问题,令用户无所适从。
3、“ 雅虎”中规中矩,网页搜索表现不错,但死链率较高而且缺少一些应有的高级搜索功能。
3.1.1增加标引的深度目前的网络信息挖掘是基于形式的,如关键词、标题和URL等,所获得的信息与设定的要求只是简单的匹配,对于中文搜索引擎,要运用网络的数据挖掘和知识发现来分析信息的内容及其关系,增加标引的深度,以提高用户的检准率。
3.1.2开发中文元搜索引擎元搜索引擎由多个独立搜索引擎汇集而成,通常以一个统一的界面向用户开放,用户只需要进行一次提问,元搜索引擎便可将提问转给不同的搜索引擎,甚至可以对结果进一步处理,将重复结果删除后再输出。
元搜索引擎的技术重心在于查询前的处理和结果的集成。
元搜索引擎可以灵活选择所要采用的独立搜索引擎,一般都是选择那些比较典型的性能优异的独立搜索引擎,这种强强联合的结果保证了搜索结果的权威性和可靠性,它还可以充分发挥各个独立搜索引擎在某个搜索领域的功能,弥补独立搜索引擎信息覆盖面的局限性。
3.1.3改善检索性能评价检索性能的指标有查全率、查准率、响应时间和检索结果输出格式等,可以从这些方面入手,有针对性地加强各个环节,改善检索性能。
首先,要充分考虑各层次用户的水平,网络用户大多未经过网络检索的培训,对搜索引擎设置的各种检索语法和规则很难理勰,因此要设计一套能充分表达用户要求但又不增加网络负载的检索语言,以提高查全率和查准率。
其次,要提供多个检索点,开发概念检索、限定载体类型和文档类型等多种检索方式,以方便用户的使用。
2、阐述智能问答系统的基本框架,并设计一个能够回答与北京大学相关问题的智能问答系统。
智能问答系统是一种处理自然语言的新型的信息检索系统。
自动问答系统能够使用户以自然语言输入问题,而不是关键词的组合。
而返回给用户的是简洁、准确的答案,而不是一些相关的网页。
分为问题分析,问题检索,答案抽取模块。
问题分析:抽取关键词,得到问题类型,了解问题意图。
(问题分类,关键词提取,关键词扩展,中文要分词)问题检索:根据关键词,利用搜索引擎得到相关文档或者段落。
答案抽取:根据问题类型,和检索得到的结果,从相关文档中进行答案的抽取。
(查找候选答案,根据权重排序,返回最佳答案)设计:对问题类型进行区分,设计一个常用问题集(?再添加一个曾回答过的问题集?,搜索关键词里添加北京大学?)3、微博的快速发展对现有互联网搜索系统带来了怎样的挑战?请设计一个微博搜索系统,描述其与现有互联网搜索系统的不同和特色之处。
一,在新闻和突发事件的时效性方面,微博的效率和传播速度远超传统媒体,比如本拉登的死,由Twitter首曝,并迅速传播到每个人。
微博搜索将因此受益。
二,在搜索的简便性上,微博有个潜在的优势,那就是用#标记的“话题”,比如#36氪开放日#,用户只要在微博内容中点击这个话题,就会得到搜索结果,非常方便。
三,自媒体丰富了每个热门事件的角度和深度,而拥有自媒体平台的是微博而不是搜索引擎。
换句话说,这些用户产生的内容是在微博里的,搜索引擎想检索这些内容会很有难度。
对于话题类的搜索结果,用户最希望看到的就是大家七嘴八舌的发表自己的看法,对此显然微博搜索可以做的更及时更新更全面。
四,对某个人的个人信息搜索上,微博搜索体现出前所未有的优势。
比如在微博上搜索“刘成城”,你可以在搜索结果中看到他最近都跟谁一块玩,参加了哪些活动,他的行踪暴露无余。
且不谈个人隐私的问题,但如此全方位的对一个人的行为完成全面的追踪,这对于传统搜索引擎是不可能完成的。
五,微博搜索结果呈现的方式更直接。
微博信息量很小,这些短文本可以直接呈现在搜索结果里,翻两页基本就了解了事件的全貌,而不是像百度一样需要再点进某网站内进行浏览,这在某种程度跟百度的框计算“所搜即所得”有些相似。
六,碎片搜索的目的是搜索碎片,请不要觉得这句话是废话,因为我们必须重新审视我们的搜索目的。
移动互联网带领我们进入碎片化时代,而碎片化信息的整合也必将给微博搜索带来大量机会,足够的信息给微博搜索以用武之地,也给了它足够的成长空间。
设计:③强调保存功能,防止重要信息流失。
4、移动设备的广泛使用使得移动互联网得以快速发展,论述移动互联网搜索的关键技术,并指出与现有桌面互联网搜索的不同和特色之处。
关键技术:互联网搜索结果再优化移动终端搜索结果不能得到海量结果,尽可能保证返回给用户的结果是最可能满足用户的。
信息过滤技术移动设备上无法全部显示含有大量信息的网页,比如动画,广告,弹出窗口等,因此需要判断网页中哪些地方包含冗余信息,过滤掉这些无用信息。
搜索门户的设计在搜索之前进行有层次的分类,用户根据需要首先缩小搜索范围,再进行搜索。
个性定制,用户根据喜好选择搜索内容(2) 混合索引技术不同之处:更加追求快速准确的查询结果,海量性要求少有wap的网站内容强制性我们被强制携带了手机,我们被强制接收信息。
QQ再强,它不能让用户关了电脑还能接收到信息。
微信却是收到就可以提醒。
永远在线智能手机已经做到了可以24小时在线。
身份识别系统定位系统移动环境其位置动态变化,计算资源有限等特点给移动Web 搜索带来了许多新的挑战,(1) 地理标记Web 资源许多Web 资源像商业、新闻等Web 页面都包含大量与位置相关的信息,再加上地理位置对移动搜索结果的精确性具有决定性的作用。
因此,如何准确有效的找出Web 资源对应的地理位置是一个关键性的问题。
对于给定的Web 资源,准确的标记出所对应的地理位置或覆盖的地理范围大致需要三个步骤:地名识别(toponym recognition)、地名分辨(toponym resolution)和覆盖地理范围的确定(Geographical focus)。
(2) 混合索引技术移动搜索需要检索与地理上下文相关的文档,这种需求要求索引建立以文本和位置为基础。
因此需要设计出一种综合考虑文本和空间位置的索引结构,使其有效地整合空间索引和文本索引以保证达到最优的搜索效果。
一种就是将用于文本检索的倒排文件和用于空间搜索的R-tree 结合起来,使用倒排文件对R-tree 进行扩充。
(3) 面向移动用户的查询处理查询处理算法利用构建的混合索引方法去评估空间相近性和文本相关性。
对于移动用户提交的查询,返回的结果与移动用户当前的位置密切相关,提交相同的查询,其时间、位置不同,得到的结果会有很大的差异,查询的结果是需要按照空间的相近性和文本的相关性进行排序。
(4) 查询结果的处理移动设备由于自身的特点只能为用户提供较小的显示区域,无法浏览大量的信息,如果用户被淹没于大量查询结果中,会导致用户的满意度下降。
因此需要对查询结果进行优化处理,把用户最满意的查询结果以最简洁的方式按照某种顺序进行展示。
(a) 查询结果的排序;(b) 查询结果记录摘要的生成。