当前位置:文档之家› 搜索引擎的主要问题&今后的发展

搜索引擎的主要问题&今后的发展


8
目前存在的主要问题
对多媒体信息资源的处理技术还不成熟: 目前,多数搜索引擎的搜索对象主要是文本格式 ,主要原因是搜索引擎的自动排序软件,只能接 受这种格式的网页。能够搜索多媒体信息资源的 搜索引擎较少。多媒体技术的发展,对搜索引擎 提出了更高的要求,搜索引擎应更好地支持动态 网页,尽快解决动态网页查询的问题。
4
搜索引擎的分类
元搜索引擎 元搜索引擎由多个独立的搜索引擎汇集而成,没 有自己的数据,在接受用户查询请求时,可以同 时调用多个搜索引擎,在其他多个引擎上进行搜 索,并将结果返回给用户。如万纬搜索、someta 等等.
5
搜索引擎的分类 垂直搜索引擎 垂直搜索引擎为2006年后逐步兴起的一类搜索 引擎。不同于通用的网页搜索引擎,垂直搜索专 注于特定的搜索领域和搜索需求(例如:机票搜 索、旅游搜索、生活搜索、小说搜索、视频搜索 等等),在其特定的搜索领域有更好的用户体验 。相比通用搜索动辄数千台检索服务器,垂直搜 索需要的硬件成本低、用户需求特定、查询的方 式多样。
参考文献&引用文献
搜索引擎存在的问题与发展趋势,包燕晗,2006 ,6 搜索引擎中的软件技术浅析,黄美军,信息科技 报,2010,7 ,下 搜索引擎关键技术的分析与研究,冯翠丽,信息 与电脑,2010,6 搜索引擎优化策略研,焦丽,路波,生产力研究 ,2010,7
LOGO
19
9
目前存在的主要问题
专业性搜索引擎较少: 专业性搜索引擎是为专门收录某一行业、某一主 题等的信息而建立,能够提供专题信息查询服务 的搜索引擎。目前的搜索引擎大多是综合性的, 收录各方面、各学科和各行业的信息,在反映专 题或专业信息方面很难做到全、快、精、准。例 如,科研人员对网络的需要主要表现为对专业网 络信息资源的需求,但目前的搜索引擎收录信息 类型众多,能够提供专题信息查询服务的专业性 搜索引擎很少,用户不可能也没有必要去浏览所 有的网页,这就给用户获取相关文献造成了极大 的信息障碍。
10
目前搜索引擎使用的主要技术
PageRank(页面等级)技术
PageRank(tm)算法是由斯坦福大学的Sergey Brin和LawrencePage 于1998年提出的,它借鉴了传统情报检索理论中的引文分析方法即 被其它文献引用越多的文献其质量越高。PageRank(tm)算法将www 上无数互相链接的页面看成是一个巨大的链接有向图,将页面看成顶 点,链接看成有向边。PageRank并不计算直接链接的数量,而是将 从网页A指向网页B的链接解释为由网页A对网页B所投的一票。这样 ,PageRank会根据网页B所收到的投票数量来评估该页的重要性。 此外,PageRank还会评估每个投票网页的重要性,某些重要网页的 投票被认为具有较高的价值,它所链接的网页就能获得较高的价值, 从而显示在搜索结果的顶部。由于该技术是根据网页之间的链接结构 对网页的重要性进行客观的分析,该技术在很大程度上避免和减少了 人为因素。
未来技术动向分析
提供个性化服务 用户信息需求是多方面的、多层次的。譬如,一 般用户希望系统更多的提供“傻瓜”式服务,专 业人士则自己构造检索式,既方便又准确。可以 使用信息智能代理跟踪用户检索行为,分析用户 模型,从而提供个性化的服务。
未来技术动向分析
提供多通道输入 用户可以通过声音、图像、视频等作为查询的输 入,查询的时,应对用户名、密码等关键信息进 行加密传输。在运营过程中,设备也可以随时要 求客户重新进行验证。支持端口验证的设备应满 足如下要求:识别并支持源、目的地址确定, VLAN TAG要求等;支持受控端口与非受控端口 ,并根据数据帧类型送入不同的端口;支持受控 端口在端口控制参数下的行为;支持Radius验证 。
3
搜索引擎的分类
目录式搜索引擎 该搜索引擎是由人工建立和管理的网站级主题分 类体系.由于目录式搜索引擎的信息分类和信息搜 集有人的参与,其搜索的准确度是相当高的。但 严格来讲它不是真正的搜索引擎,用户可以不用进 行关键词查询,仅靠分类目录也可找到需要的信 息,代表有雅虎、新浪、InfoMarket 等.
未来技术动向分析
设备安全防护 口令管理:为防止对系统未经授权的访问,系统 必须具有完善的密码管理功能。虽然几乎所有数 据通信设备都具有RADIUS或TACACS认证服务 器进行口令管理的能力,但在设备本地进行密码 分配和管理仍是设备本身应具有的安全特性。这 里只描述本地密码管理。口令的密文显示:若系 统的配置文件以文本方式进行保存,则在配置文 件中,所有的口令都必须以密文方式显示和保存 。
未来技术动向分析
提高检索的有效性 用户在使用搜索引擎查询信息时,关注的是返回 结果是否是自己需求的信息,而不是追求返回结 果的数量。解决查询结果过多的现象目前出现了 几种方法:一是采用目录式结构,用户可以像浏 览文件夹一样选择自己感兴趣的网页;二是对搜 索结果进行聚类分析,通过无监督学习机制查找 相关内容。
LOGO
搜索引擎的主要问题&今后的发展
1
搜索引擎浅识
搜索引擎(search engine )是一种能够通过 Internet接受用户的查询指令,并向用户提供符合 其查询要求的信息资源网址的系统,是网络信息 检索的首选工具。 搜索引擎一般有以下四部分: 搜索器 索引器 检索器 用户接口
2
搜索引擎的分类
目前存在的主要问题
(1)查准率低:多数搜索引擎的检索功能单一,信 息加工深度不够,这导致信息查询的查准率不高 。并且其数据库多为非不易于 处理多词检索和限定词检索。按分类目录浏览常 常检索到很多无关的信息。
7
目前存在的主要问题
(2)检索效率不高:主要问题是长数据更新速度慢, 查询响应时间长。由于网络资源的爆炸式增长和 上网用户需求的日益增加,多数搜索引擎的日处 理检索请求量很可能是上亿的,如何处理如此繁 重的任务并提高处理效率,是目前搜索引擎必须 要考虑的问题。
目前搜索引擎使用的主要技术
超文本匹配分析 在依据用户关键词查询数据库时,分析关键词在 网页中出现的次数,分析网页的全部内容以及字 体、字号及每个文字精确位置等因素,还可以分 析相邻网页的全部内容,以确保返回与用户查询 最相关的结果。
目前搜索引擎使用的主要技术
中文分词技术 中文分词技术属于自然语言处理技术范畴,其处 理过程就是分词算法。现有的分词算法可分为三 大类:基于机械匹配的分词算法、基于统计语言 模型(SLM)的分词算法和基于理解的分词算法 。包括:基于机械匹配的分词算法,基于统计语言 模型(SLM)的分词算法,基于理解的分词算法.
全文搜索引擎。 全文搜索引擎是从由互联网上收集各个网站信息 组建的数据库中检索与用户查询条件匹配的相关 记录,然后按一定的排列顺序将结果返回给用户 。国外具有代表性的全文搜索引擎有Google、 Alt搜索引 擎又可细分为两种,一种是拥有自己的检索程序 ,俗称“蜘蛛”程序或“机器人”程序,并自建 网页数据库,搜索结果直接从自身的数据库中调 用;另一种则是租用其他引擎的数据库,并按自 定的格式排列搜索结果,如Lycos(民赞网)引
相关主题