当前位置:文档之家› 中外主流搜索引擎中文搜索能力对比研究

中外主流搜索引擎中文搜索能力对比研究

收稿日期:2005-05-30作者简介:徐雪梅(1967-),副研究馆员,发表论文多篇。

国外著名的搜索引擎纷纷进军中文搜索市场,中文搜索市场的竞争越来越激烈。

通过中外主流搜索引擎中文搜索能力的对比分析,找出国内搜索引擎的优势和存在的不足,为国内搜索引擎的发展和用户的使用提供借鉴。

1研究对象从2005年5月开始,Cwrank根据Alexa排行榜修正的[1]全球排行榜、[2]中国排行榜以及[3]互联网实验室,依据《互联网实验室CISI网站评测体系》中的评测原则将Alexa排行榜进行过滤,从提供的2005年每月的过滤版可知,内地著名的门户网站有:新浪、搜狐、网易、3721、TOM、21CN、中华网、上海热线等,它们历年提供搜索服务所使用的搜索技术如表1。

从表1可以看出,2005年专业搜索引擎中国搜索以及一搜虽为其他著名门户网站提供搜索技术支持,但提供技术支持的门户网站数比百度少,且在2005年Cwrank[1,2]与互联网实验室[3]的排行榜上,都排在百度之后,故选取百度作为国内专业搜索引擎的代表。

2005年3月Nielsen/NetRatings发布的数据显示[4],2000年开始中文搜索服务的Google继续在搜索领域排名首位。

曾经先后为Yahoo、AOL等国际知名网站提供搜索技术服务,目前为网易、AOL、A-mazon、AskJeeves、Earthlink、Cisco(思科)、P&G(宝洁)、T-Online(Europe)、网景Netscape等国内外著名的网站和公司提供搜索技术服务,支持简体中文和繁体中文网页的搜索,故选取Google为国外专业搜索引擎的代表。

2检索功能比较检索功能体现搜索引擎的质量和技术水平,Google、百度的检索功能见表2、表3、表4。

中外主流搜索引擎中文搜索能力对比研究徐雪梅1,刘雁书2,兰小筠2(1.南华大学图书馆,湖南衡阳421001;2.中南大学医学技术和情报学院,长沙410013)摘要:通过中外主流搜索引擎Google、百度中文搜索能力的对比分析,找出国内搜索引擎的优势和存在的不足,为国内搜索引擎的发展和用户的使用提供借鉴。

关键词:中文搜索引擎;搜索能力;搜索效果中图分类号:G254.1文献标识码:B文章编号:1002-1248(2005)09-0084-06StudyontheComparisonofChineseSearchCapacityofMajorSearchEnginesbetweenChinaandtheForeignCountriesXUXue-mei1,LIUYan-shu2,LANXiao-yun2(1.Library,NanhuaUniversity,Hengyang,Hunan421001,China;2.SchoolofMedicalTechnologyandInformation,CentralSouthUniversity,Changsha410013,China)Abstracts:ThroughthecomparisonanalysisoftheChinesesearchcapacityofmajorsearchenginessuchasGoogleandBaidubetweenChinaandabroad,thepaperhasfoundtheadvantagesandexistingdisadvantagesofdomesticsearchengine,whichhasprovidedreferencethedevelopmentofdomesticsearchengineandtheutilizationbydomesticusers.Keywords:Chinesesearchengine;searchcapacity;searcheffect农业图书情报学刊第17卷第9期Vol.17’No.9JournalofLibraryandInformationSciencesinAgriculture2005年9月Sep.2005搜索引擎新浪搜狐3721网易TOM21CN中华网上海热线开始搜索服务时间1999年1998年1998年2001年2001年2000年2002年2001年1999年新浪搜狐37212000年新浪、百度搜狐、百度3721百度2001年新浪、百度搜狐、百度3721Google百度百度百度2002年新浪、百度搜狐、百度、中国搜索3721百度百度百度百度、中国搜索百度2003年新浪、百度、中国搜索搜狐、中国搜索3721、中国搜索百度、Google、中国搜索中国搜索、百度百度中国搜索百度2004年新浪、中国搜索、visionnext、Google搜狐、中国搜索一搜、3721网易、中国搜索GoogleTOM、百度、中国搜索21CN、百度、中国搜索中国搜索、一搜百度、搜狐2005年新浪、中国搜索、visionnext、百度搜狗一搜、3721Google、网易、TOM百度一搜上海热线、搜狐、百度门户网站使用的搜索技术表1各著名门户网站历次使用的搜索技术3检索效果比较3.1检索式的确定对单个关键词进行搜索,结果往往成千上万,而多个关键词联合搜索既能大大减少搜索结果,又能更搜索类型网站搜索网页搜索新闻搜索Mp3搜索地区/地域搜索图像/图片搜索网上论坛搜索Google关键词、分类关键词关键词关键词、分类百度关键词、分类关键词关键词、分类关键词、分类关键词关键词、分类关键词、分类表2Google、百度的主要搜索功能类型高级搜索网页快照二次检索扩检功能关键词推荐搜索布尔逻辑运算字段检索限定检索精确检索Google可设置网页语言、文件格式、网页更新日期、字词位置、网域、类似网页、键链、每页显示结果数,在网站搜索、网上论坛搜索、图像搜索界面中都提供“高级搜索”网页快照支持提供该网站内的更多结果在搜索结果中推出类似网页搜索和网页类别搜索两种类型按类似网页搜索无支持在网页的标题中搜索(intitle:)在网页的内文搜索(intext:)在网页内的任何地方在网页内的网址(inurl:)在网页的链接内搜索(inanchor:)按链接搜索(link:)指定网域(site:)按文件类型搜索(filetype:)按时间搜索支持百度可以设置网页语言、关键词位置、网页更新日期、网页地区(可多选)、网域、每页显示的结果数,在网页搜索界面提供“高级搜索”百度快照支持提供该网站内的更多结果无无支持相关检索词智能推荐搜索支持在标题中搜索(intitle:)无无在url中搜索(inurl:)无按链接搜索(link:)指定网站搜索(site:)无按时间搜索支持表3Google、百度的辅助搜索功能搜索引擎GOOGLE百度实用功能计算器、中英文字典、天气查询、股票查询、邮编区号、手机号码计算器、天气预报、电视节目预报、网上地图、列车时刻表、飞机航班、宾馆查询、外汇牌价、股票查询、彩票查询、邮编查询、IP查询、手机号码查询、星座运程、万年历、词典搜索等表4Google、百度的实用功能第9期徐雪梅等:中外主流搜索引擎中文搜索能力对比研究85好地反映检索者的检索意图,因此多个关键词联合搜索在一定程度上更能反映搜索引擎的检索能力。

为了减少主观因素对测试结果的影响,并保证所选课题的现实性,在南华大学的信息检索登记表中进行筛选,最后选取医学领域的检索课题九个,并根据登记表中各个课题附有的关键词及其组配关系,组成测试二个搜索引擎的检索提问式集合。

九个检索提问式如下:E1:哮喘流行病学E2:卡托普利充血性心力衰竭E3:爱滋病鸡尾酒疗法E4:狂犬病疫苗免疫效果E5:肝癌致病基因E6:白血病造血干细胞移植E7:子宫肌瘤介入治疗E8:系统性红斑狼疮免疫吸附E9:早产儿视网膜病变测试时间:2005.4.10-2005.5.103.2检索环境的确定为了保证检索结果的可比性,所有检索实验都在统一的环境下进行。

由于网页搜索是Google、百度最基本的搜索功能,且繁体中文和简体中文的网页都是它们的收录范围,故对对它们进行中文(包括繁体中文和简体中文)网页的搜索效果进行测试。

为了减少网络的动态性变化所致误差,同时使用二个搜索引擎检索同一表达式,并将每个搜索引擎的检索结果保存下来,用于统计分析。

所有统计结果都是自然搜索结果。

3.3评价指标美国研究人员H.VernonLeighton和JaideepSri-vastava提出“相关性范畴”和“前X命中记录查准率”的概念。

“相关性范畴”给出一种判断检索结果与检索课题相关性的标准,而“前X命中记录查准率”,则在“相关性范畴”标准的判断下,计算“查准率”[6]。

凤元杰等在此基础上给出了“相对查准率”的评价指标,我认为这是判断检索准确度的一种较好评价方法,于是采用了这种方法[7]。

搜索引擎营销公司iPropect的调查研究显示:总计共81.7%的搜索引擎使用者会在看完前三页之前就停止阅读搜索结果,人们对前三屏兴趣较大,并且三个搜索引擎都可以以10为单位输出检索结果,故N取为30是理想的。

具体的计算方法如下:(1)相关性范畴等级和相关系数(见表5)(2)p(Ei)的计算方法将每个关键词的前30条记录分为4组(1-3,4-10,11-20,21-30),分别赋予权值0.45,0.25,0.2,0.1;R每个命中记录的相关系数(当命中记录数≥30时,N取为30,否则N为实际返回记录数)。

为属于范畴1的检索结果赋予相关系数0,为属于范畴2的检索结果赋予相关系数0.5,为属于范畴3的检索结果赋予相关系数1。

为N的函数,作为P(Ei)的分母。

当N=0时,P(Ei)=0。

P(Ei)的计算公式则为:P(Ei)=R(1-3)×0.45+R(4-10)×0.25+R(11-20)×0.2+R(21-30)×0.1M(Ei)(3)计算出P(A)=1nni=1"P(Ei),P(A)的值就称为搜索引擎A的相对查准率。

3.4检索结果Google、百度的搜索结果显示格式、文档类型及网页类型见表6,命中网页情况见表7、表8,处理后命中网页的前30条记录的相关系数见表9,相对查准率见表10。

相关性范畴范畴1范畴2范畴3定义重复或无用的信息检索出的信息对检索者有潜在用处检索出的信息对检索者有明显的用处种类重复链接死链不相关链接有一定的字面联系,但内容信息无用的链接给出了相关但不详尽的信息检索结果中包含了范畴3信息的链接详尽、丰富的相关链接详尽的探讨和论述相关系数00000.50.511表5相关性范畴等级和相关系数0.45N0<N≤30.25N+0.63<N≥100.2N+1.110<N≤200.1N+3.120<N≤30,M(Ei)令M(Ei)=农业图书情报学刊:信息教育第17卷86文档类型网页类型搜索结果显示格式GoogleHTML文档、PDF、PS、DOC、PPT等非HTML文档的收录搜索静态网页和动态网页文件格式、网页标题、网页摘要、网页网址、网页大小、网页生成日期、网页语言,以醒目的颜色显示检索词百度HTML文档、PDF、PS、DOC、PPT等非HTML文档的收录搜索静态网页和动态网页网页标题、网页摘要、网页网址、网页大小、网页生成日期、网页语言,以醒目的颜色显示检索词表6Google、百度的搜索结果的显示格式、文档类型、及网页类型搜索引擎Google百度E139808920E23941070E381602740E411101140E532602680E677409210E747005470E8406445E98431750合计3059333425平均33993714表7Google、百度命中网页数表8Google、百度处理后的命中网页数搜索引擎Google百度E1749760E2155242E3635717E4623406E5721378E6727750E7767760E8225156E9439493合计50414662记录号123456789101112131415161718192021222324252627282930E10.50.5111111000100.510.50.50.5110.5110.5000000.5E20.50.50.50.51100.5000.50.51110.50.50.510.5111000010.51E300.50.50000.5000.500.50.510.50.50000.50.500.50.500000.50E40.50.5110.50.50.5010.5100.50000.50.50.50.50.5000.5000.500.50E50.50.50.50.50.50.50.50.50.50.50.500000.500.500.50.50.50.50.50.500.50.500E60.50.50.50.50.50.50.500.50.50.50.50.50.50.5010.50.50.50.50.500.510.50.50.50.50.5E70.510.50.500.511110.500.50.50.500.50.50.50.510.501000.500.50.5E80000.50100000.50.50.50.500.50.500.50.50.5000.500.50000E900.51010.50.50.5101111011010010.5000.5000.50E1110010100.5011010.5001111000.50.510.50.511E21110.50100.51110.50.50.500.510.510.5000.50.5011111E3110.5000.50.500.50000000.50010010000110.50E410.5110.50.50.500.50.50.500.500.50.50.50.500.50.50.50.510.50.50.50.500.5E50.50.50.50.50.50.50.50.50.50.50.500.50.50.50.50.50.50.50.50.50.50.50.50.500000E6000.50.50.50.500.500.50000000.50.50.50.50.50100.50.50.50.50.50.5E70.5110.5110010.500.500.51000.500.500001000.500E80.50.500.500.50.510.51000.50.500.500.5000.5000000000E90.500.51110.5010000.5000.50.50.510.500.500010100表9Google、百度处理后的命中网页的前30条记录的相关系数Google百度第9期徐雪梅等:中外主流搜索引擎中文搜索能力对比研究874讨论4.1搜索功能表2、表3、表4可以看出,百度提供的主要搜索功能的种类超过Google,如百度的新闻搜索、MP3搜索和地区搜索是Google中文界面所缺少的;在辅助搜索功能方面,特别是限定检索和字段检索,百度比Google逊色得多;百度提供的使用功能更多,更符合国内用户的特殊搜索需求。

相关主题