搜索引擎分析在当今的社会,上网成为了我们大部分人每天必不可少的一部分,网络具有太多的诱惑和开发的潜力,查询资料,消遣娱乐等等,但是这些大部分都离不开搜索引擎技术的应用。
今天在我的这篇论文里将会对搜索引擎进行一个分析和相关知识的概括。
就如大家所知道的互联网发展早期,以雅虎为代表的网站分类目录查询非常流行。
网站分类目录由人工整理维护,精选互联网上的优秀网站,并简要描述,分类放置到不同目录下。
用户查询时,通过一层层的点击来查找自己想找的网站。
也有人把这种基于目录的检索服务网站称为搜索引擎,但从严格意义上讲,它并不是搜索引擎。
1990年,加拿大麦吉尔大学计算机学院的师生开发出Archie。
当时,万维网还没有出现,人们通过FTP来共享交流资源。
Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。
用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。
虽然Archie搜集的信息资源不是网页,但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。
所以,Archie被公认为现代搜索引擎的鼻祖。
搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。
搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。
百度和谷歌等是搜索引擎的代表。
那么搜索引擎将来的发展方向和发展的前景又是如何?我们就先从以下的各类主流搜索引擎先进行一个大致的分析。
1.全文索引全文搜索引擎是当今主要网络搜素时所应用的搜索引擎,在网络上也是大家所熟知的,比如google和百度都是我们平时经常使用的。
它们从互联网提取各个网站的信息,建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。
根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的检索程序,俗称“蜘蛛”程序或“机器人”程序,能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google 和百度就属于这种类型;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。
在搜索引擎分类部分提到过全文搜索引擎从网站提取信息建立网页数据库的概念。
搜索引擎的自动信息搜集功能分两种。
一种是定期搜索,就是每隔一段时间,搜索引擎就会发启“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。
而另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。
由于近年来搜索引擎索引规则发生很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录在服务器里。
当用户以关键词查找信息时,这种搜索引擎会立刻在数据库中进行搜索查找,如果找到与用户要求内容相关和符合的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置、频次,链接质量——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户,这种方法拥有较为精准的搜索,通常能为用户找到相符合的网站和讯息,是现在较为热门的搜索方式。
3.元搜索引擎元搜索引擎的工作原理则是接收到用户的查询的请求之后,会同时在多个搜索引擎上进行搜索,并且速度相当的快捷,查询后会反馈给用户。
世界上著名的元搜索引擎有infoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。
在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。
一个真正的元搜索引擎由三部分组成,即:检索请求提交机制、检索接口代理机制、检索结果显示机制。
"请求提交"负责实现用户"个性化"的检索设置要求,包括调用哪些搜索引擎、检索时间限制、结果数量限制等。
"接口代理"负责将用户的检索请求"翻译"成满足不同搜索引擎"本地化"要求的格式。
"结果显示"负责所有元搜索引擎检索结果的去重、合并、输出处理等。
元搜索引擎的出现,对于那些需要连续地使用不同的搜索引擎重复相同的检索的人来说,是一个福音。
使用元搜索引擎同时对几个搜索引擎进行检索,获得分级编排的检索结果。
在可以检索的目标搜索引擎、检索提问的处理方式以及如何编译和显示结果方面,元搜索引擎有着很大的差异。
有些元引擎一个接一个的搜索目标搜索引擎,另一些则同时进行搜索。
有些搜索引擎将检索提问转变成目标搜索引擎的提问语言,而有一些则原封不动的发送给目标引擎。
按功能划分,元搜索引擎包括多线索式搜索引擎和All-in-One式搜索引擎;按运行方式的差异可分为在线搜索引擎和桌面搜索引擎。
4.垂直搜索引擎接下来垂直搜索引擎是2006年后逐步开始进入主流并兴起的一类搜索引擎。
和普通的网页搜索引擎不同,垂直搜索引擎专注于特定的搜索领域和搜索的需求,在其专业的搜索方面,将会对用户带来更好的搜索结果。
相比通用搜索动辄数千台检索服务器,垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样.垂直搜索引擎为用户提供的并不是上百甚至上千万相关网页,而是范围极为缩小、极具针对性的具体信息。
因此,特定行业的用户更加青睐垂直搜索引擎,是垂直搜索引擎的长期、稳定的群体。
搜索引擎的出现,整合了众多网站信息,恰恰起到了信息导航的作用。
通用搜索引擎就如同互联网第一次出现的门户网站一样,大量的信息整合导航,极快的查询,将所有网站上的信息整理在一个平台上供网民使用,于是信息的价值第一次普遍的被众多商家认可,迅速成为互联网中最有价值的领域。
互联网的低谷由此演变为第二次高峰。
大家熟知的搜索引擎Google、百度、雅虎等是通用搜索引擎现如今的杰出代表,他们为互联网的发展做出了重要的贡献。
然而,搜索引擎行业也不是一家公司就可以独撑天下的,从百度的上市、yahoo中国的并购一系列动作表明,如今的搜索引擎大战如同门户网站初期的竞争一样激烈。
相信,通用搜索引擎在经历过一段时间的角逐后,也将会继续维持几大服务商各自分控一部分市场的局面。
垂直搜索引擎概念的提出,就是针对性的为某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。
可以简单的说成是搜索引擎领域的行业化分工。
众多专业性网站、行业网站独立服务于互联网的成功,恰恰证明了互联网的格局应该是多方面的。
通用搜索引擎的性质,决定了其不能满足特殊领域、特殊人群的精准化信息需求服务。
市场需求多元化决定了搜索引擎的服务模式必将出现细分,针对不同行业提供更加精确的行业服务模式。
可以说通用搜索引擎的发展为垂直搜索引擎的出现提供了良好的市场空间,势必将出现垂直搜索引擎在互联网中占据部分市场的趋势,也是搜索引擎行业细分化的必然趋势。
垂直搜索不只是类google的行业通用搜索。
以房产行业为例,如果我们按照google抓取网页的方式,来建造一个房产行业google的做法,是行不通的。
技术壁垒不用解释,就算我们借助其他搜索技术来做,我们也无法提供差异化的服务,而没有差异化的产品在互联网赢家通吃的规则下是无法生存的,就是不要简单地模仿,而要想办法形成互补。
垂直搜索和目前的google,baidu等通用搜索从定位,内容,用户,市场策略等都是不同的。
所以垂直搜索不只是简单的去做出改变。
用户使用google,baidu等通用搜索引擎的方式是通过关键字的方式实现的,是语义上的搜索,返回的结果倾向于知识成果,比如文章,论文,新闻等;垂直搜索也是提供关键字来进行搜索的,但被放到了一个行业知识的上下文中,返回的结果更倾向于信息,消息,条目等。
对买房的人讲,他希望找的房子供求信息和文章,新闻等不同。
这个特性是他们各自的的技术特点决定的。
打个比方,如果google搜索引擎是一个正三角形,那么垂直搜索引擎就是个倒三角形,两者是互补的。
垂直搜索的本质是对垂直门户信息提供方式的一次简化性的整合。
搜索领域有句明言:就是用户无法描述道他要找什么,除非让他看到想找的东西,这个过程有点像找对象,碰运气是用户搜索行为的最大的特征。
而垂直搜索引擎就是提高为用户提供更好的运气。
垂直搜索是服务于某项功能的,比如:用户搜索租房,买房信息就是一种垂直搜索。
对信息的再加工处理是非常关键的,不管是结构化的数据,还是非结构化的数据。
在互联网上说门槛,就是比资源。
垂直搜索也是这样,能否提供全面权威的行业信息,能否拥有行业资源是垂直搜索引擎发展的门槛。
换句话说,垂直门户就是垂直搜索的一个主要的基石。
作为房产行业的搜房网就是一个垂直门户,在房产领域没有谁更清楚什么是垂直搜索了。
垂直搜索的难点不是技术,而是用户参与门户网站行为的创新和垂直门户网站对产业上下游信息资源的整合。
5.集合式搜索引擎集合式搜索引擎:这种搜索引擎比较相似于元搜索引擎,他们不同的地方在于它并非同时调用多个搜索引擎对用户的要求进行搜索,而是由用户从提供的若干搜索引擎中选择,这种方式使用户有更多的选择空间和方式,明显的区别于其他的搜索方式,对某些特定的搜索也有相当出色的精确度。
6.门户搜索引擎门户搜索引擎虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。
每个独立的搜索引擎都有自己的网页抓取程序。
顺着网页中的超链接,连续地抓取网页。
被抓取的网页被称之为网页快照。
由于互联网中超链接的应用很普遍,而在理论上,从一定范围的网页出发,就能搜集到大量的相关的网页。
当搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。
在其中,最重要的一步就是提取关键词,并且建立索引文件。
其他还包括去除重复网页、分词、判断网页类型、分析超链接、计算网页的重要度,丰富度等。
用户输入关键词进行检索,搜索引擎则会从索引数据库中找到匹配该关键词的网页;为了让用户做出更正确的判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。
我认为个性化趋势是搜索引擎的一个未来发展的重要特征和必然趋势之一。
一种方式通过搜索引擎的社区化产品的方式来组织个人信息,然后在搜索引擎基础信息库的检索中引入个人因素进行分析,最后获得针对个人不同的搜索结果。
自2004年10月yahoo推出myweb测试版,到11月a9推出个性化功能基本上可以说是都沿着一条路走,就是分析特定用户的搜索需求限定的范围,然后按照用户需求范围将其扩展到互联网上其他的同类网站给出最相关最接近的结果。