当前位置:文档之家› 基于在线增量学习的自适应聚焦爬虫研究

基于在线增量学习的自适应聚焦爬虫研究

本文由fatcat132006贡献pdf文档可能在WAP端浏览体验不佳。

建议您优先选择TXT,或下载源文件到本机查看。

第 26 卷第 5 期 2009 年 5 月计算机应用与软件Computer App lications and Softw are基于在线增量学习的自适应聚焦爬虫研究朱婷1 21, 2滕桂法陆浩张长利曾大军1222(河北农业大学信息科学与技术学院河北保定 071001)(中科院自动化所复杂系统与智能科学实验室北京 100190)摘要在原始分类器聚焦爬虫的基础上设计并实现在线增量学习的自适应聚焦爬虫。

该聚焦爬虫包括一个基础网页分类器和一个在线增量学习自适应链接分类器。

基础页面分类器根据领域知识对抓取到的页面内容主题相关性进行分类。

在线增量学习自适应链接分类器能即时根据爬虫爬得网页和网页链接信息作出分类模型调整以更合理方式计算链接的主题相关度。

系统中链接排序模块采用 Top icalRank主题相关度计算方法分析链接优先抓取顺序。

把基于增量学习的自适应聚焦爬虫应用到农业领域 ,实验结果和分析证明在线增量学习的自适应聚焦爬虫在农业领域爬行性能比仅基于网页相关性和链接重要度的原始分类器聚焦爬虫具有更好的性能。

关键词在线增量学习Top icalRank 聚焦爬虫农业领域随着 Internet的快速发展 ,网络资源成为巨大的知识库 , 搜索引擎已经成为网络用户获取各种信息的一种重要手段。

目前如 Google、 Baidu等大多数是面向所有信息的搜索引擎 , 可以称之为通用搜索引擎。

随着信息多元化的增长 ,适用于所有用户的通用搜索引擎已经不能满足特定用户更深入的查询需求 , 他们对信息的需求往往是针对特定领域和面向特定主题的 , 此时通用搜索引擎的搜索效果难以满足有特定需求的用户。

针对这种情况 ,一个分类精确、数据全面、更新及时的面向主题的搜索引擎———垂直搜索引擎应运而生。

聚焦爬虫是一个自动提取网页的程序 ,它为垂直搜索引擎从万维网上下载网页 , 是垂直搜索引擎的重要组成部分。

它根据抓取目标有选择地访问网页和相关的链接 , 并获取所需要的Abstract An adap tive focused craw ler of online 2incremental learning based on p rim itive classification focused craw ler is designed and re2 perfor mance than the p rim itive classifier focused crawler based only on web pages’correlation and link importance degree. Keywords Online 2Incremental learning Top icalRank Focused craw ler Agriculture field alized in this article. The craw ler’architecture includes a basic webpage classifier and an online 2incremental learning adap tive link classifier s . incremental learning adap tive link classifier is able to adjust the classifying model instantly according to the web pages fetched by the craw ler and the link information of the web pages, and to calculate correlation degree of the linked top ics more reasonably The L inks SortingModule in . duces the application of incremental learning2based adap tive focused craw ler in agriculture field. Experim ental result and analysis demonstrateThe basic webpage classifier is used to classify the correlation of fetched content’ top ics of pages according to domain know ledge. The online 2 s0 引言the system uses Top icalrank algorithm of top ic correlation degree to analyze the p referential fetching sequence of the links The paper intro2 . that, w ith regard to the craw ling performance in agriculture field, the online 2incremental learning adap tive focused craw ler has more excellentO N ADAPT IVE FOCUSED CRAW L ER BASED O N O NL INE 2INCREM ENTAL L EARN ING Zhu Ting Teng Guifa Lu Hao Zhang Changli Zeng Dajun1, 2 1 2 2 21( College of Infor a tion Science and Technology, A gricu ltural U n iversity of Hebei, B aod ing 071001, Hebei, Ch ina) m2(L abora tory of Com plex System s and In telligence S cience, Institu te of A u tom a tion, Ch inese A cadem y of S ciences, B eijing 100190, Ch ina) 信息。

与通用搜索引擎的爬虫不同 ,聚焦爬虫并不追求大的覆盖 ,而将目标定为抓取与某一特定主题内容相关的网页 ,为面向主题的用户查询准备数据资源。

本文从基于分类器的聚焦爬虫出发 ,以提高聚焦爬虫的爬行能力为目的 ,展开一个基于增量学习的自适应聚焦爬虫的研究 ,并把该研究应用于农业领域。

1 基于分类器的聚焦爬虫原理基于分类器的聚焦爬虫是具有代表性的聚焦爬虫的早期研究之一 ,目前大多数的聚焦抓取都采用了类似的工作流程 ,其系统结构如图 1 所示。

Vol126 No. 5 M ay 2009收稿日期 : 2008 - 07 - 30。

国家自然科学基金 ( 60621001, 6057378) ; 中国科学院海外合作伙伴计划项目 ( 2F05N01) 。

朱婷 , 硕士生 , 主研领域 : 数据挖掘 ,信息检索 ,自然语言处理。

1994-2010 China Academic Journal Electronic Publishing House. All rights reserved.26计算机应用与软件2009 年图 2 中 u 初始时为种子 , 进入爬行后 , 是网页主题相关度和网页重要度都大且已经有效爬行了的页面。

指 u网页指向的正 v 向链接网页 , v的网页可是主题相关或不相关。

2. 1 爬行模块从优先待下载的 url队列中选择要优先爬行的 url并抓取该u rl所指网页。

爬行模块采用开源网络爬虫 He ritrix框架来实现 , 它的出色之处在于可扩展性 , 通过扩展它的组件来实现自定义的抓取逻辑。

爬行模块在抓取中可以获取完整、精确的站点内容包括文本和非文本信息 , 将内容存储到爬虫数据库。

爬行模块采用多线程技术 , 以提高系统的处理速度。

图 1 基于分类器聚焦爬虫体系结构 [ 1 ]根据一个主题目录和用户指定的初始点 (如书签 ) 来描述抓取目标 ,并在用户浏览过程中 ,将用户标注的感兴趣网页放人相应的主题目录 ,修改主题样本。

系统的两个主要部分是网页分类器 ( classifier)和网页选择器 ( distiller) 。

网页分类器负责学习抓取目标的特点 ,计算网页的关联度 ,并过滤网页。

选择器负责计算网页的重要程度 ,发现中心型网页 ,并由此动态决定网页的访问顺序。

早期的聚焦爬虫不考虑链接主题相关性分析 , 直接在网页分类器主题相关性分析后把保留下来的正向链接放到链接排序模块等待爬行 url优先队列 , 提供给爬虫继续爬行。

一般采用以 PageRank[ 2 ]和 H ITS [ 3 ]为代表的基于网页链接结构的搜索策略 ,通过分析网页之间的相互链接关系来确定网页的重要性 ,进而决定链接访问顺序。

该方法考虑了链接结构和网页之间的相互链接关系 , 但忽略了页面与主题的相关性。

大量研究表明 ,PageRank算法只适合于发现权威网页 , 不适合发现主题资源 ;2. 2 基础网页分类器基础网页分类器通过农业领域知识库来指导训练 , 这里设计的是一个 N a ve B ayes 分类器。

研究表明 N a ve B ayes是较快的一种分类方法 , 效果也较好 , 理论上错误率最低。

该方法对于文本 d i , 求条件概率 P ( cj | di ) , 条件概率最大的那个类别作为最终选择类别 , 计算时引入 Te rm 独立性假设。

B eyes公式如下 :p ( cj | d i ) = p ( d i | cj ) ×p ( cj ) ∝ p ( d i | cj ) ×p ( cj ) p ( di ) r其中 p ( d i | cj ) =∏p (wk =1ik| cj ) ter 独立性假设。

m = N ( cj )p ( cj ) =cj 的文档个数总文档个数∑N ( c )k k在某些情况下 H ITS会出现搜索偏离主题的“主题漂移”。

问题p ( w | cj ) =w 在 cj 类别文档中出现的次数 cj 类文档中所有出现的 ter 的次数 m2 增量自适应聚焦爬虫设计在基于分类器聚焦爬虫的基础上 ,为提高爬虫高效、准确的领域爬行性能 ,仅考虑链接重要性是不够的。

相关主题