主题爬虫的搜索策略研究
针对网站级别的算法,主要考虑网站之间的链接关系,按 照 一 定 的 模 型 计 算 链 接 的 权 重 ,关 键 之 处 在 于 站 点 的 划 分 和 站点等级 (SiteRank) 的计算[7-8]。Wu 和 Aberer 讨论了在分布式 情况下,通过对同一个域名下不同主机、服务器的 IP 地址进 行站点划分,构造站点图,计算出站点的 SiteRank。实验表明 能 有 效 减 少 运 算 的 代 价 ,间 接 说 明 了 网 页 的 重 要 性 ,另 外 还 可 避 免 针 对 网 页 统 计 算 法 的 欺 骗 行 为[7]。
基于链接结构评价的搜索策略,考虑了链接的结构特征, 对 主 题 相 关 网 站 搜 索 时 使 用 效 果 较 好 ,但 由 于 忽 略 页 面 内 容 与主题的相关性,容易出现搜索偏离主题的“主题漂移”问题, 另外在搜索过程中需要迭代计算 PageRank 值或 Authority 及 Hub 权重,当页面和链接数量不断增长时计算复杂度也呈指 数级增 长 。 [3] 2.2 基 于 网 页 内 容 的评 价 算 法
Survey on searching strategies of focused crawler
LIU Han-xing, LIU Cai-xing (College of Informatics, South China Agricultural University, Guangzhou 510642, China)
页面的结构化特征,很难反映 Web 的整体情况,存在“近视”
的缺点 。 [10]
Web 页面是一种含有丰富链接结构的半结构化文档,其 中 链 接 结 构 是 爬 虫 工 作 的 基 础 。链 接 分 析 是 基 于 这 样 一 个 前 提:把超链接看作是对它所指的页面的赞许。当页面 A 通过 超链接指向页面 B 时说明两点:①页面 B 与页面 A 是相关联 的;②页面 B 是值得关注的质量较好的页面。通过网页之间 的 链 接 结 构 ,来 评 价 与 网 页 有 直 接 或 间 接 链 接 关 系 的 对 象 ( 网 页 或 网 站 ) 的 算 法 ,本 文 称 为 基 于 网 络 拓 扑 结 构 的 搜 索 策 略 。
- 3160 -
(a) 通用搜索引擎搜索顺序 (b) 主题搜索引擎搜索顺序
图 1 两类搜索引擎爬虫搜索顺序
即一个站点倾向于说明一个或多个主题;②Hub 特征,Hub 页 面 是 指 该 页 面 不 但 含 有 许 多 指 出 链 接 ,并 且 这 些 链 接 趋 向 于 同一主题;③Linkage/Sibling Locality 特征,Linkage Locality 是指 页面倾向于拥有链接到它的页面的主题,Sibling Locality 是指 对 于 一 个 链 接 到 某 个 主 题 页 面 的 页 面 而 言 ,它 所 链 接 指 向 的 其它页面也倾向于和这个主题相关;④Tunnel 特征,在不同的 主 题 页 面 之 间 ,往 往 是 通 过 许 多 主 题 无 关 链 接 连 接 在 一 起 。由 此 ,网 页 评 价 算 法 可 归 纳 为 不 同 类 型 。 2.1 基 于 网 络 拓 扑 结构 的 评 价 算 法
基于网页内容的分析算法指的是利用网页内容(词条等) 特征进行的网页评价。网页的内容由最初静态的 Html 页面 (surface web),发展到以动态页面(Deep Web 或 Hidden Web)为 主 的 页 面 分 布 情 况[9],相 对 于 可 以 被 搜 索 引 擎 直 接 处 理 的 前 者
*
,=
=1
(1)
2
2
=1
=1
式中:, ——主题向量和页面向量, , ——主题和页面的
特 征 项 的 权 重 ,M—— 维 数 。
以上算法都考虑以文本的内容与主题的相似度来评价链
接 价 值 的 高 低 ,从 而 决 定 其 搜 索 策 略 。优 点 是 计 算 简 单 ,在 距
离相关页面较近的地方搜索时性能较好,但由于忽略了 Web
第 29 卷 第 12 期 Vol. 29 No. 12
计算机工程与设计
Computer Engineering and Design
2008 年 6 月 June 2008
主题爬虫的搜索策略研究
刘汉兴, 刘财兴 (华南农业大学 信息学院,广东 广州 510642)
摘 要:主题爬虫 收集主题相关信 息时,需要评 价网页的主题 相关度,并优 先爬取相关度较 高的网页,在 决定了搜索路 径的 同时 也决定了主题爬 虫的搜索效率 。针对不同的网 页评价算法,对现 有的主题爬虫的 搜索策略进行 分类,指出了各类 搜索 策略 的特点和优缺点 ,总结了能够提 高主题爬虫搜索 效率的几方面 内容。 关键 词:主 题爬虫; 搜索策 略; 页面评价; 搜索引擎; 优 化 中图 法分类号:TP391 文献标 识码:A 文章编号:1000-7024 (2008) 12-3160-03
Abstract:While focused Crawler collect information, it needs to evaluate the relevance of web pages, and process firstly pages which have higher relevance, thus deciding the search path and efficiency of crawler. Web crawler's searching strategies based on the way they evaluate the web page is categorized. The character of each class of searching strategy is described and the advantage and disadvantage is discussed, several ways to improving the efficiency of web crawlers are summed up. Key words:focused crawler; searching strategy; page evaluating; search engine; optimization
针对网页级别的分析算法中,典型的有 PageRank [3] 和 HITS [3],两 者 都 是 通 过 对 网 页 间 链 接 度 的 递 归 和 规 范 化 计 算 , 得到每个网页的重要度评价。PageRank 算法的“用户冲浪”模 型 考 虑 了 用 户 访 问 行 为 的 随 机 性 ,但 忽 略 了 用 户 访 问 行 为 目 的性,即网页和链接与查询主题的相关性。针对这个问题, HITS 算法计算页面的 Authority 权重和 Hub 权重,并以此决定 页面中链接的访问息 ,为 一 般 用 户 提 供 检 索 服 务 ,可 以 称 为 通 用 搜 索 引 擎 。但 对于专业用户及研究人员来说,他们的查询往往是针对某 个领域或面向特定主题,使用通用搜索引擎进行检索效果 不 理想 ,准确 率和 召回 率都很 低,因此 就出现 了主 题搜 索引 擎(topic-specific search engine,又称专业搜索引擎)。
主题搜索引擎索引的内容只限于特定主题或专门领域, 因而在搜索的过程中无须对整个 Web 进行遍历,如图 1 (b) 所 示 ,它 只 需 选 择 与 主 题 页 面 相 关 的 页 面 进 行 访 问 。
网络爬虫对网页的抓取策略分为广度优先和最佳优先两 种,主题爬虫主要采用后者 。 [1-2] 广度优先能较快找到高质量 的 网 页 ,同 时 页 面 覆 盖 率 较 高 ,但 随 着 爬 虫“爬 行”的 深 入 ,抓 取 页 面 的 相 关 度 也 随 之 降 低 。最 佳 优 先 策 略 的 基 本 思 想 是 按 照 一 定 的 网 页 评 价 算 法 ,计 算 网 页 与 主 题 的 相 关 性 ,选 取“价 值”最 高 的 网 页 中 的 链 接 进 行 抓 取 。因 此 ,如 何 评 价 页 面 价 值 成为研究主题爬虫搜索策略的关键。
2 网页评价算法研究
Web 上的页面分布表面看似杂乱无章,但主题页面的分 布却有一定的规律,可总结为 4 个特征 :① [3,6,10] 站点主题特征,
收稿日期:2007-06-25 E-mail:liuhx666@ 基金项目:国家 863 高技术研究发展计划基金项目 (2006AA10Z246)。 作者简介:刘汉兴 (1971-),男,湖北鄂州人,硕士,讲师,研究方向为智能检索、自然语言处理; 刘财兴 (1962-),男,副教授,研究方向 为无线传感器网络、计算机网络。
不同,Deep Web 主要是由结构化的数据源动态生成,搜索引擎 只能覆盖大约 1/3 的页面。根据网页组织形式的不同,将基于 网页内容的分析算法,分为两类:一类主要针对 Surface Web, 以分析直接可见的文本和超链接为主的网页;另一类针对 Deep Web,主要分析动态生成的网页。 2.2.1 基 于 Surface Web 的 网 页 评 价 算 法
网络爬虫 (Crawler,或 Spider 程序) 是一个自动下载 Web 网 页 的 程 序 ,是 搜 索 引 擎 的 基 础 与 核 心 。 主 题 搜 索 引 擎 中 的 主题爬虫,首先需要定义“主题概念”,明确“主题”的范围和内 容 ,即 对“主 题”进 行 描 述 或 定 义 。 主 题 概 念 可 以 用 主 题 词 集 来 表 示 ,也 可 以 表 示 为 示 例 文 档 ( 由 用 户 选 定 的 种 子 样 本 ),也 可来源于某一领域概念。主题爬虫在工作时,只抓取与主题 相关的网页或内容。为了保证采集到的信息的主题相关性, 以何种策略来决定访问 Web 的搜索路径,是主题爬虫研究的 焦点 。该 [1-4] 文根据网页评价算法的不同,对比分析了主题爬虫 的几种搜索策略,总结了提高主题爬虫搜索效率的几个方面。