当前位置:文档之家› 浅析各类搜索引擎之间的联系与区别

浅析各类搜索引擎之间的联系与区别

浅析各类搜索引擎之间的联系与区别摘要internet上蕴藏着非常丰富的信息资源,但是要从浩如烟海的信息中准确、及时、方便、迅速的找到自己所需要的信息,却并不是一件容易的事情.为此应对重点网络搜索引擎的检索技术和功能作一全面的介绍.使学生在网络信息检索中选择了好的搜索引擎,才能快速、准确地找到所需要信息.本文主要对百度和google两个典型搜索引擎之间的检索技术、各自特点进行全面的比较和分析,从而得出各类搜索引擎之间的联系与区别。

关键字google 百度搜索引擎比较分析Google是世界上最大的搜索引擎,通过对200多亿网页信息的整理,每天为世界各地提供1.5亿次以上的网上信息查询服务。

百度是全球最大的中文搜索引擎, 拥有超过10多亿的中文网页数据库, 每天响应超过亿次的网络信息搜索请求。

在这两大搜索引擎之间, 搜索的结果平均有85%的不同,因此,有网站把两者结合建立了百Google度。

然而,这两大搜索引擎之间究竟有什么特点和区别,本文将根据数据加以分析、比较研究。

Google与百度的特点Google的特点google秉持着开发“确解用户之意, 切返用户之需”的“完美的搜索引擎” , 使得搜索方式发生了根本性变化, 在业界独树一帜, 其强大的功能和独到的特点就在于:(1)“网页快照”功能。

能从google服务器里直接取出缓存的网页。

如果原地址打开很慢, 那么可以直接查看google缓存页面, 因为google服务器速度极快;如果原链接已经死掉或者因为网络的原因暂时链接不通, 那么可以通过google快照看到该页面信息;如果打开的页面信息量巨大, 一下子找不到关键词所在位置, 那么可以通过google快照, 因为快照中google用黄色表明关键字位置。

(2)“单词英文解释”功能。

写英文文章的时候, 最头疼的事情就是对某个英文单词的用法不确定。

现在有了google, 一切就迎刃而解了!无论你是想查找某个生词的意思还是想了解某个单词的用法, 均可使用在线词典。

(3)“网页翻译”功能。

google提供了网页翻译功能, 虽然目前只支持有限的拉丁语、法语、西班牙语、德语和葡萄牙文, 但是不得不承认, 这是个杰出功能, 只要你点击“Translate this page ”按钮, google为你提供了人工智能的机器翻译, 翻译出来的结果让你大致能够看得明白。

(4)“搜索结果过滤”功能。

网络上的成人信息浩如烟海, 而且很多站点具有欺骗或者其他不良企图, 浏览者很容易掉入其中的陷阱。

为此google新设立了成人内容过滤功能, 见google的设置页面,不过, 中文状态下的尚没有这个功能。

(5)“超文本匹配分析”功能。

google的搜索引擎, 同时也分析网页内容,它并不采用单纯扫描基于网页的文本的方式, 而是分析网页的全部内容以及字体、分区及每个文字精确位置等因素, 同时还会分析相邻网页的内容, 以确保返回与用户查询最相关的结果。

(6)“ PageRank,”技术。

通过对由超过5000万个变量和20亿个词汇组成的方程进行计算,PageRank能够对网页的重要性做出客观的评价, 它并不计算直接链接的数量, 而是将从网页A指向网页B的链接解释为由网页A对网页B 所投的一票, 这样会根据网页B所收到的投票数量评估该页的重要性, 提供准确率极高的搜索结果。

(7)“图片搜索”功能。

google可以检索390000000张图片, 并称为“互联网上最好用的图像搜索工具” , 对中国用户而言, google的图片搜索引擎是最好的图像搜索工具。

(8)“新闻组搜索”功能。

新闻组有详尽的分类主题, 某些主题还有专人管理和编辑, 具有大量的有价值信息。

由于新闻组包含的信息实在是海量, 因此不利用工具进行检索是不大可能的。

2001年google将DEJA收购并提供了所有DEJA 的功能。

现在, 除了搜索之外, google还支持新闻组的WEB方式浏览和张贴功能。

(9)“目录检索”功能, 如果不想搜索广泛的网页, 而是想找某些专题网站, 你可以访问google的分类目录。

分类的网站目录一般由专人负责, 分类明确, 信息集中。

(10)其他功能。

google的其他功能还包括查询电话号码、查找PDF文件、股票报价、找找谁和你链接、查找站点、查找字典释意, 等等。

百度的特点百度致力于倾听、挖掘与满足中国网民的需求, 秉承“用户体验至上”的理念, 除网页搜索外, 还提供MP3、文档、地图、传情、影视等多样化的搜索服务, 将无数网民头脑中的智慧融人了搜索, 使“百度一下”已经成为了人们进行搜索的新动词。

其独有的功能和特点就在于:(1)“百度快照”功能。

如果无法打开某个搜索结果, 或者打开速度特别慢, “百度快照”能帮您解决。

每个被收录的网页, 在百度上都存有一个纯文本的备份, 称为“百度快照”。

由于百度速度较快, 您可以通过“快照”快速浏览页面内容。

(2)“相关搜索”功能。

搜索的结果不佳, 有时候是因选择的查询词不妥当。

您可以通过参考别人的做法来获得一些启发。

百度的“相关搜索” ,就是和您的搜索很相似的一系列查询词。

(3)“拼音提示”功能。

如果只知道某个词的发音, 却不知道怎么写, 或者嫌某个词拼写输入麻烦, 这时百度拼音的提示能够帮您解决。

只要您输人查询词的汉语拼音, 百度就能把最符合要求的对应汉字提示出来。

它事实上是一个无比强大的拼音输人法。

(4)“错别字提示”功能。

由于汉字输人法的局限性, 在搜索时经常会输人一些错别字, 导致搜索结果不佳, 这是百度会给出错别字纠正提示。

错别字提示显示在搜索结果上方。

(5)“英汉互译词典”功能。

百度在线英汉互译词典, 你随便输人一个英语单词, 或者输人一个汉字词语, 点击结果页上的“词典”链接, 就可以得到高质量的翻译结果。

百度在线词典不但能翻译普通的英语单词、词组、汉字词语, 甚至还能翻译常见的成语, 具有直接使用英汉互译功能。

(6)“计算器和度量衡转换”功能。

百度网页搜索内嵌的计算器功能, 则能快速高效解决你的计算需求, 你只需简单的在搜索框内输人计算式,回车即可看到计算式的结果。

百度的搜索框中, 你也可以做度量衡转换, 当你输人:换算数量换算前单位=?换算后单位, 回车即可得到换算的结果。

(7)“专业文档搜索”功能。

百度具有很好的office文档、Adobe PDF文档、RTF文档进行了全文搜索。

只要你在普通的查询词后面, 加一个“ filetype”和文档类型限定。

就可快速查看该文档的网页格式内容。

你也可以通过百度文档搜索界面而功, 直接使用专业文档搜索功能。

(8)“股票、列车时刻表和飞机航班查询”功能。

你在百度搜索框中输人股票代码、列车车次或者飞机航班号, 就能直接获得相关信息。

例如, 输人股票代码“ 600001” , 搜索结果上方, 就显示邯郸钢铁的股票实时行情。

(9)“天气查询”功能。

百度可以随时查询天气预报, 只要你在百度搜索框中输人你要查询的城市名称加上天气这个词, 您就能获得该城市当天的天气情况。

百度支持全国多达400多个城市和近百个国外著名城市的天气查询。

(10)“超链分析”技术。

百度将传统情报学中的引文索引技术同web中最基本的链接技术相结合, 通过分析链接网站的多少来评价被链接的网站质量, 使得在百度搜索时, 越受用户欢迎的内容排名越靠前.两大搜索引擎的相关特点折射出各类搜索引擎的联系。

它们都有自己服务理念和目标,都有强大的功能为用户服务,并打造自身的技术特点和专长。

为用户不断提供优秀的服务质量,并完善自身的技术和不足,吸引用户的使用和得到信赖,不断发展。

google与百度检索技术分析评价一个搜索引擎的质量, 就需要对检索结果进行比较分析, 为此有必要对google与百度从更新时间、响应速度、查全率、检准率、文档搜索等方面进行比较分析。

(1)规模、内容及更新时间google多为月更新, 有部分日更新或时更新,搜索范围涵盖了世界各地的网页, 网页数达200多亿。

百度平均为周更新, 中文信息大部分时更新,有超过10多亿中文网页, 9千万张图片, 拥有目前世界上最大的中文信息库, 并且还在以每天几十万页的速度快速增长, 涵盖了中国内地、港澳台、新加坡等华语地区及北美、欧洲部分网站。

(2)搜索响应的速度google有1.5万台服务器, 200多条T3级宽带, 索引功能通过索引库和排序器来实现。

百度在中国各地和美国均设有服务器, 高效的搜索算法和本地服务器保证最快的响应速度。

为了测试google和百度的响应速度, 笔者任意抽取了5个搜索词进行检索, 其结果是google的平均响应时间小于0.13秒, 百度的平均响应时间小于0.06秒(参见:搜索响应时间统计表),百度的搜索响应的速度要快于google。

搜索响应时间统计衰搜索词 google 百度李文红 393000条 0.23秒 888000 0.001秒信息组织学 1160条 0.05秒 308000 0.089秒美对台军售 770000条 0.22秒 88300条 0.082秒新农村文化建设 4560000条 0.07秒 525000条 0.001秒网络信息资源检索 3850000条 0.06秒 27300条 0.125秒平均响应时间 0.13秒 0.06秒(3)资源查全率google收取了大概200亿的英文搜索页面,互联网上总的英文网页的数量大概在300亿左右,google已经覆盖了英文网页数据量的60%到70%,在这个条件下, 所以它的用户满意度能达到60%到70%。

互联网上中文网页有效数量大致在100到150亿之间, 而百度和收录的文网页量都在40亿到50亿之间, 因而, 百度和google的中文网络资源查全率一般只能达到任30一40%。

对西方网络信息资源查全率进行研究, 百度与google同样无与伦比。

(4)网络信息资源检准率检准率是衡量网络信息检索质量的标准, 也是网络信息检索的一个突出问题。

搜索引擎的检准率体现在两个方面, 一是搜索引擎对垃圾网页的抗干扰能力, 二是搜索引擎对检索结果的排序能力, 它主要取决与搜索引擎采用的排序算法的优劣。

(5)文档搜索应用在互联网上除了网页资源外, 还如PDF,DOC,RTF,xls,PPT(S)等文档文件, 这些文档通常会包含一些重要的资料, 所以对这一部分网络信息资源的挖掘和利用, 也是搜索引擎的一个重要功能, 它也是衡量一个搜索引擎完整与否, 成熟与否的重要指标。

Google综合起来看是比百度要强大一些,各类搜索引擎之间的技术决定了搜索引擎公司的强大与否。

结语通过google和百度二个无论从搜索的质量和数量都是世界一流的搜索引擎,能看出各类搜索引擎速度都非常迅速,它们在更新时间和搜索的速度上有着差别,在数据库规模、涵盖范围和检准率, 以及网络信息查全率上因各自的技术不同也有着差别。

相关主题