当前位置:文档之家› 垂直搜索引擎技术指标

垂直搜索引擎技术指标

1 垂直搜索引擎技术指标

一、什么是垂直搜索

垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。

垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库,进行进一步的加工处理,如:去重、分类等,最后分词、索引再以搜索的方式满足用户的需求。

整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。

垂直搜索引擎的应用方向很多,比如企业库搜索、供求信息搜索引擎、购物搜索、房产搜索、人才搜索、地图搜索、mp3搜索、图片搜索……几乎各行各业各类信息都可以进一步细化成各类的垂直搜索引擎。

二、垂直搜索技术概述

垂直搜索技术主要分为两个层次:模板级和网页库级。

模板级是针对网页进行模板设定或者自动生成模板的方式抽取数据,对网页的采集也是针对性的采集,适合规模比较小、信息源少且稳定的需求,优点是快速实施、成本低、灵活性强,缺点是后期维护成本高,信息源和信息量小。

网页库级就是在信息源数量上、数据容量上检索容量上、稳定性可靠性上都是网页库搜索引擎级别的要求,和模板方式最大的区别是对具体网页不依赖,可针对任意正常的网页进信息采集信息抽取……。这就导致这种方式数据容量上和模板方式有质的区别,但是其灵活性差、成本高。当然模板方式和网页库级的方式不是对立的,这两者对于垂直搜索引擎来说是相互补充的,因为技术只是手段,目的是切反用户之需。本文谈及的技术主要是指网页库级别垂直搜索引擎技术。下图为垂直搜索引擎结构的拓扑图。 2

三、垂直搜索引擎的主要技术指标

<1>、信息采集技术:

垂直搜索引擎spider和网页库的spider相比应该是更加专业,可定制化。可定向性的采集和垂直搜索范围相关的网页忽略不相关的网页和不必要的网页,选择内容相关的以及适合做进一步处理的网页深度优先采集、对页面有选择的调整更新频率……,采集可通过人工设定网址和网页分析url方式共同进行。垂直搜索对信息的更新有着特别的要求,根据这些特点可以从以下几点考虑1.信息源的稳定性(不能让信息源网站感觉到spider的压力)2.抓取的成本问题3.对用户体验改善程度。根据以上几点制定一种比较好的策略,要做到恰到好处。策略上可以评估网站/网页更新的系数、网站/网页的重要系数、用户点击系数(或曝光系数)、网站稳定系数……,根据这些系数来确定对这些网站/网页更新的频率。再由于新信息和更新了的信息list页面前面或者首页,所以对网页进行很好的分级可以以低成本很好的解决更新问题,系数比较低的网页一月update一次,稍微高点的一周update一次、中等的几天到一天一次、高的几小时到几分钟一次。类似搜索引擎的大库、周库、日库,小时库……

聚焦、实时和可管理

一般互联网搜索面向全网信息,采集的范围广、数量大,但往往由于更新周期的要求,采集的深度或说层级比较浅,采集动态网页优先级比较低,因而被称为水平搜索。而垂直搜索带有专业性或行业性的需求和目标,所以只对局部来源的网页进行采集,采集的网页数量适中。但其要求采集的网页全面,必须达到更深的层级,采集动态网页的优先级也相对较高。在实际应用中,垂直搜索的网页采集技术能够按需控制采集目标和范围、按需支持深度采集及按需支持复杂的动态网页采集,即采集技术要能达到更加聚焦、纵深和可管控的需求,并且网页信息更新周期也更短,获取信息更及时。

一般信息采集软件(爬虫)的基本结构包含以下模块: 3

(1)保存种子的URL和待取的URL的数据结构。

(2)保存已抓取过的URL的数据结构,防止重复抓取。

(3)页面获取模块。

(4)对已经获取的页面内容的各个部分进行抽取的模块。

以下为其他可选模块:

(5)负责连接前处理模块

(6)负责连接后处理模块

(7)过滤器模块

(8)负责多线程模块

(9)负责分布式的模块

信息采集实质上也就是搜索引擎对页面的收录

页面收录-就是指搜索引擎通过蜘蛛程序在互联网上抓取页面并进行存储的过程,为搜索引擎开展各项工作提供数据支持。(包括:域名列表、URL列表、网页快照页面)

1)页面收录方式:广度优先、深度优先、用户提交等三种方式。

广 度优先–如果把整个网站看作是一棵树,首页就是根,每个页面就是叶子。广度优先是一种横向的页面抓取方式,先从树的较浅层开始抓取页面,直至抓取完同一层 次上的所有页面后才进入下一层。因些,在对网站进行优化的时候,我们应该把网站中相对重要的信息展示在层次较浅的页面上(例如,在首页上推荐一些热门产品 或者内容)。 4

如下图所示(广度优先抓取流程)。首先,搜索引擎从网站首页出发,抓取首页上所有链接指向的页面,形成页面集合(A),并解析出集合(A)中所有页面的链接;再跟踪这些链接抓取下一层的页面,形成集合(B)。递归地抓取完所有浅层页面,再进一步抓取深层页面。

深度优先–是一种纵向的页面抓取方式,首先抓取浅层页面中的某一个链接,然后顺着该链接进一步抓取该链接的下一层页面,直至抓取完最深层次的页面后才返回浅 层页面再继续抓取。使用深度优先的抓取方式,搜索引擎就可以抓取到网站中较为隐蔽、冷门的页面,以满足更多用户的需求。

如 下图2-3所示(深度优先抓取流程)。首先,搜索引擎从网站首页出发,提取首页中的所有链接;再沿着其中的一个链接抓取到页面1-1,同时提取页面1-1 中的所有链接;接着,沿着页面1-1中的一个链接A-1抓取到页面2-1,同时提取页面2-1中的所有链接;再沿着页面2-1中的一个链接B-1继续抓取 更深一层的页面。递归地抓取到网站最深层次的页面,才返回首页继续抓取。

5

用户提交–为了抓取到更多的网页,搜索引擎还允许网站管理员主动提交页面。网站管理员只需把网站中页面的URL按照指定的格式制作成文件,提交给搜索引擎,搜索引擎就可以通过该文件对网站中的页面进行抓取及更新。

这种由网站管理员主动提交页面的方式大大提高了搜索引擎抓取页面的效率及质量;而对于网站本身来说,也大大提高了网站页面被收录的数量(目前Google及Yahoo!都支持这种页面抓取方式)。

为了提高抓取页面的效率及质量,搜索引擎会结合多种方式去抓取页面。例如,先使用广度优先的方式,把抓取范围铺得尽可能宽,获取到尽可能多的重要页面;再使用深度优先的方式,抓取更多隐蔽的页面;最后,结合用户提交的信息,抓取那些被遗漏的页面。

2)搜索引擎对页面的维护方式:定期抓取、增量抓取、分类定位抓取等三种方式。

定期抓取-也称周期性抓取,即搜索引擎周期性地对网站中已收录的页面进行全面的更新。(包括:替换旧页面、删掉不存在页面、存储新页面)

增量抓取-对网站中某些重要的页面进行了定时监控,以实现对页面的更新及维护。(这也是为什么搜索引擎对重要页面的更新周期会更快的原因,例如,内容经常更新的页面,搜索引擎也会经常对其进行更新,从而及时发现新内容、删除不存在信息)

分类定位抓取-根据网站页面的类别或性质来制定相应的更新周期来定时监控页面。(例如,“新闻资讯”类页面的更新周期可以精确到每分钟,而“资源下载”类页面的更新周期就可以定为一天或更长时间)

为 了提高页面的更新频率及质量,搜索引擎会结合多种方式去更新。例如,一个网站中更新比较频繁的首页,可以使用增量抓取方式对其进行监控,以便对网站中相对 重要的页面进行及时更新;而对于实时性非常高的论坛页面,则可以采用分类定位的抓取方式;而为了防止遗漏网站中的某些页面,还需要采用定期抓取的方式。

3)搜索引擎对页面的存储

搜索引擎在抓取页面时,除了存储原始页面(即网页快照)外,还会附加一系列信息(例如,文件类型、文件大小、最后修改时间、URL、IP地址、抓取时间等),再把这些信息作为开展某项工作的依据。

<2>、网页信息抽取技术:

结构化信息抽取技术,将网页中的非结构化数据按照一定的需求抽取成结构化数据。有两种方式,简单的就是模板方式,另外就是对网页不依赖web结构化信息抽取方式,这两种方式可以互取长处,以最简单最有效的办法满足需求。垂直搜索引擎和通用搜索引擎最大的区别就是对网页信息结构化抽取后再结构化数据进行深度的处理,提供专业的搜索服务。所以web结构化信息抽取的技术水平是决定垂直搜索引擎质量的重要技术指标。

水平搜索引擎仅能对网页的标题和正文进行解析和提取,但不提供其时间、来源、作者及其他元数据的解析和提取。由于垂直搜索引擎服务的特殊性,往往要求按需提供时间、来源、作者及其他元数据解析,包括对网页中特定内容的提取。比如:在论坛搜索、生活服务、订票服务、求职服务、风险信用、竞争情报、行业供需、产品比较等特定垂直搜索服务中,要求对于作者、主题、地区、机构名称、产品名称以及特定行业用语进行提取,才能进一步提供更有价值的搜索服务。这里又包括:

简单的语法分析:

简单的语法分析在搜索引擎中非常重要,可以通过简单的语法分析来改善数据的质量,低成本的获得某类信息,改善排序,寻找需要的内容…… 6

信息处理技术:

信息处理包括的范围比较广,主要包括去重、聚类、分析……。

数据挖掘:

找出您的信息的关联性对于垂直搜索来说非常重要,有效,可以在这些相关性上为用户提供更细致的服务。

高度智能化的数据挖掘

垂直搜索与水平搜索的最大区别是它对网页信息进行了结构化信息抽取加工,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。基于结构化数据和全文数据的结合,垂直搜索才能为用户提供更加到位、更有价值的服务。整个结构化信息提取贯穿从网页解析到网页加工处理的过程。同时面对上述要求,垂直搜索还能够按需提供智能化处理功能,比如自动分类、 自动聚类、 自动标引、自动排重,文本挖掘等等。这部分是垂直搜索乃至信息处理的前沿技术在一些海量信息处理的场合能够起到很好的应用效果。下面配合图标详细说明:

搜索引擎对页面的分析

页面分析-首先是对页面(下载到搜索引擎本地的页面-网页快照)建立索引,以实现对页面的快速定位;然后,提取页面的正文信息(过滤掉HTML标签),并对正文信息进行切词以及为这些词(即关键字)建立索引,从而得到页面与关键字的之间对应关系(一个页面对应多个关键字);最后,对所有关键字进行重组,并建立关键字与网页间对应关系的反向索引列表(一个关键字对应多个网页URL),从而实现根据关键字快速定位至相应的网页。(包括:网页索引表、切词后形成的关键字索引表、页面与关键字的”一对多”的关系列表、重组关键字与页面的”一对多”的关系列表)。

1)网页索引-为页面URL建立索引表,这样通过URL就可以快速定位到对应的页面。

2)正文信息提取- 过滤网页标签(如:HTML标签、JS标签、PHP标签、ASP标签等),这就是js 对搜索引擎无效的原因。

相关主题