当前位置:文档之家› 课程设计报告格式

课程设计报告格式

课程设计报告格式
课程设计报告
( -- 年度第一学期)
名称:《软件设计与实践》课程设计题目:网络爬虫研究与应用
院系:计算机系
班级:
学号:
学生姓名:
指导教师:软件设计与实践教学组
设计周数:两周
成绩:
日期:年 1 月 14 日
《软件设计与实践》课程设计
任务书
一、目的与要求
1.了解网络爬虫的架构和工作原理,实现网络爬虫的基本框架;
2.开发平台采用JDK 1.60 eclipse集成开发环境。

二、主要内容
1.了解网络爬虫的构架,熟悉网页抓取的整个流程。

2.学习宽度优先和深度优先算法,实现宽度crawler应用程
序的编写、调试和运行。

3.学习主题爬行及内容分析技术。

4.实现网络爬虫的基本框架。

三、进度计划
四、设计成果要求
1.要求按时按量完成所规定的实验内容;
2.界面设计要求友好、灵活、易操作、通用性强、具有实用性;
3.基本掌握所采用的开发平台。

五、考核方式
平时成绩+验收+实验报告。

学生姓名:于兴隆
指导教师:王蓝婧
年 1 月 2 日
一、课程设计的目的与要求
1.目的:
1.1 掌握crawler的工作原理及实现方法;
1.2 了解爬虫架构;
1.3 熟悉网页抓取的整个流程及操作步骤;
1.4 掌握宽度优先,深度优先算法,并实现宽度crawler应用程序的编写、调试和运行;
1.5 掌握主题爬行及内容分析技术;
1.6 实现一个最基础的主题爬虫的过程;
1.7 理解pageRank算法,并编程验证;
二、设计正文
网络爬虫研究与应用
[摘要]:本文经过对网络爬虫研究的逐步展开,讨论了爬虫的相关概念与技术,并经过实验设计了简单的基于宽度优先的爬虫和主题式爬虫。

最后,讨论了PageRank算法。

[关键词]:网络爬虫爬虫应用 PageRank算法
1.引言
随着网络技术的迅速发展,万维网已经成为人们获取信息的重要渠道,如何高效地提取并利用这些信息成为一个巨大的挑战。

现阶段的搜索引擎,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。

可是,这些通用性搜索引擎也存在着一定的局限性,如:
(1)统一的返回不能满足不同用户的检索需求。

(2)搜索引擎提高覆盖面的目标与膨胀的网络信息之间的矛盾日益加深。

(3)搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。

为了解决上述问题,定向抓取相关网页资源的主题爬虫应运而生。

主题爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。

与通用爬虫不同,主题爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。

2.网络爬虫。

相关主题