当前位置:文档之家› 网络爬虫技术探究 毕业设计

网络爬虫技术探究 毕业设计

JIU JIANG UNIVERSITY毕业论文题目网络爬虫技术探究英文题目Web Spiders Technology Explore 院系信息科学与技术学院专业计算机科学与技术姓名闻泽班级学号A081129指导教师邱兴兴二○一二年五月信息科学与技术学院学士学位论文摘要网络爬虫是一种自动搜集互联网信息的程序。

通过网络爬虫不仅能够为搜索引擎采集网络信息,而且可以作为定向信息采集器,定向采集某些网站下的特定信息,如招聘信息,租房信息,以及网络营销常要的邮箱地址信息等。

本文通过JA V A实现了一个基于广度优先算法的爬虫程序。

本论文阐述了网络爬虫实现中一些主要问题:为何使用广度优先的爬行策略,以及如何实现广度优先爬行;系统实现过程中的数据存储;网页信息解析等。

通过实现这一爬虫程序,可以搜集某一站点的所有URLs,并通过得到的URLs 采集到页面的内容,在从内容中提取到需要的内容,如邮箱地址以及页面标题等。

再将得到的URLs等采集到的数据存到数据库,以便检索。

本文从搜索引擎的应用出发,探讨了网络爬虫在搜索引擎中的作用和地位,提出了网络爬虫的功能和设计要求。

在对网络爬虫系统结构和工作原理所作分析的基础上,研究了页面爬取、解析等策略和算法,并使用Java实现了一个网络爬虫的程序,对其运行结果做了分析。

关键词:网络爬虫,广度优先,搜索引擎信息科学与技术学院学士学位论文AbstractThe Web Spider is an automated program collects information on the Internet. The Web Spider can not only search engine to collect network information and can be used as directional information collection, directed acquisition of some site specific information, such as recruitment information, rental information, as well as network marketing often have to e-mail address information.JA V A Implementation of an algorithm based on breadth first Spider program. This paper described the data stored in the Web Spider to achieve some of the major questions: Why use a breadth-first crawling strategy, as well as how to implement the breadth-first crawling; system implementation process; web page information to resolve.Through the realization of this Spider can collect all of a site's URLs, URLs collected by and get to the page content, to extract from the content, the content, such as email address and page title. And then get the Urls collected was data saved to the database to retrieve. In this paper, the application of the search engine to explore the role and status of a Web Spider search engine, web Spider functionality and design requirements. Web Spider system structure and working principle of the analysis based on study strategies and algorithms of the page crawling, parsing, etc. and use the Java implementation of a Web Spider program, its operating results analysis.Keywords:Spider, Breadth First Search, Search Engine信息科学与技术学院学士学位论文目录摘要 (I)Abstract (II)1 绪论1.1 现状分析 (1)1.2 系统开发背景 (2)1.3 系统意义 (3)1.4 论文主要的工作 (4)1.5 论文结构 (4)2 需求分析2.1 系统非功能性需求 (5)2.2 系统功能需求 (5)2.3 系统数据流程分析 (5)2.4 环境需求 (8)2.5 本章小结 (9)3 系统设计3.1 系统结构设计 (10)3.2 爬行策略分析 (12)3.3 爬虫技术分析 (14)3.4 数据库设计 (17)信息科学与技术学院学士学位论文3.5 本章小结 (17)4 系统实现4.1 系统功能简介 (18)4.2 核心算法 (20)4.3 功能模块实现 (21)4.4 数据库实现. (30)4.5 本章小结 (33)5 系统测试5.1 抓取测试 (34)5.2 搜索测试 (37)5.3 本章小结 (38)6 总结与展望致谢 (40)参考文献 (41)信息科学与技术学院学士学位论文1 绪论1.1 现状分析从雅虎最初的网页分类技术,谷歌PageRank开始,到目前的百度等搜索引擎的迅猛发展,搜索引擎在互联网中应用领域展示了越来越广泛的作用。

搜索引擎的科学研究价值不仅仅体现在其高技术挑战性,而且表现在其对于整个互联网络乃至民生提供的便捷性和信息高速传达方式,对整个社会的高度的经济促进作用[1]。

从2000年开始在国内的缓慢发展,到目前国内百度,谷歌,搜搜,搜狗,有道等搜索引擎林立,搜索引擎的研究还只是刚刚的开始,如何在Web信息中寻找最符合用户需求的信息展示出来,这不仅在尺度上是空前巨大,而且规范条件也是非常的不确定。

及其的系统往往是很难判别出用户真正需要的是什么信息的,而目前乃至以后,用户总是希望以最简短的搜索约束范围(即用户输入的关键字)搜索到自己想要的信息,所以系统得到的输入是一个笼统的模糊的概念,而这种笼统的不确定性的约束范围,和海量数据的处理,已经将搜索引擎研究技术乃至整个科学研究技术带入了一个真正的高度。

在搜索技术中,对信息的处理,既要考虑到数据的客观性,又要考虑到行为的主观性。

数据的客观性表现在Web中数据形式的客观存在性,面对任何人,同一网页中的信息是不变的,而主观性则是指,每条信息对于不同用户不同需求所能提供的信息量区别是很大的,这个可以很深刻的理解:一个介绍机器用法的网页对于新用户来说肯定是很有用的,而对于开发者来说,却不一定有用或者作用的层次不同了。

搜索引擎技术中客观性和主观性存在很多这样的矛盾之处,而不同的处理方式则会导致最后传达信息量的巨大或细微差别,这是以前的科学技术研究的盲点,而针对目前的社会需求,这又是刻不容缓的需要解决的一个方面,越来越多的人已经对这个领域产生了强大的兴趣。

信息科学与技术学院学士学位论文搜索引擎技术带动了很多相关学科的发展,离散数学,矩阵技术的应用让大家对数学产生了广泛的兴趣,搜索引擎优化技术(SEO)成为了许多人研究和工作的方向,同时也是电子商务的强力武器。

而搜索引擎对于人工智能的贡献更是真正具有伟大意义的!自然语言理解,模式识别,机器学习,数据挖掘技术在搜索引擎的发展中得到了强大的提高。

而文本分类,多媒体识别,海量数据挖掘,机器在线增量学习,在线分类类聚,信息抽取和摘取,命名等又和实际应用紧密的结合成商用搜索引擎,而其强大的资金后盾,也促进了Web搜索和人工智能行业的大力发展。

1.2 系统开发背景随着信息时代的到来和发展,Web上的信息正在飞速地增长,这带给人们前所未有护的丰富的信息资源。

然而,在给人们提供丰富信息的同时,却在web信息的高效便捷使用方面给人们带来巨大的挑战:一方面Web上的信息种类繁多、丰富多彩,而另一方面却很难找到真正有用的信息。

在信息社会中,没有控制和组织的信息不再是一种资源,它倒反而成为信息工作者的敌人。

搜索引擎的问世,为快速、准确、有效地获取网络信息资源提供了极大的帮助。

搜索引擎是为满足人们搜索网络信息的需要而开发的网络工具,是互联网信息查询的导航针,是沟通用户与网络信息的桥梁。

搜索引擎的出现很大程度上解决了人们在Web上查找信息的困难,但是随着信息多元化的增长,千篇一律给所有用户同一个入口显然不能满足特定用户更深入的查询需求。

即现有搜索引擎在提供用户便利获取丰富的信息资源的同时,也存在着种种的不足之处。

(1)查准率低:对任意主题,都可能很容易地包含成百上千的文档,这会使得搜索引擎返回的文档数过于庞大,其中很多相关性并不大,或所包含的内容质量不高。

(2)查全率低:搜索引擎的索引能力正在越来越落后于网络的快速增长速度。

(3)内容相对陈旧:各个搜索引擎搜索到的文件有时是不再有效的,因为网页已被移至别处或不存在。

有调查发现,几个不同搜索引擎检索到的第一个文件在网上存在的平均时间是186天。

信息科学与技术学院学士学位论文(4)信息分布不平衡:有83%的站点包含商业的内容,只有6%的站点包含科学或教育的内容。

因而,人们提出了对搜索引擎新的要求:(l)运行在常规的软/硬件设备之上;(2)只采集某一特定学科或特定主题的Web信息资源;(3)能够方便地对专题和学科进行配置。

为了满足这些新的要求,主题爬虫应运而生。

主题爬虫就是针对性的为某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。

可以简单的说成是搜索引擎领域的行业化分工。

由于主题爬虫分类细致精确、数据全面深入、更新及时,并且运用了人工分类以及特征提取等智能化策略,因此它将更加有效和准确。

主题爬虫是主题搜索引擎的重要组成部分,它负责对用户感兴趣的某一主题的网页进行抓取。

具备普通爬虫的功能,即通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。

相关主题