当前位置：文档之家› 网络爬虫开题报告doc

网络爬虫开题报告doc

网络爬虫开题报告篇一：毕设开题报告及开题报告分析开题报告如何写注意点1.一、对指导教师下达的课题任务的学习与理解这部分主要是阐述做本课题的重要意义2.二、阅读文献资料进行调研的综述这部分就是对课题相关的研究的综述落脚于本课题解决了那些关键问题3.三、根据任务书的任务及文件调研结果，初步拟定执行实施的方案（含具体进度计划）这部分重点写具体实现的技术路线方案的具体实施方法和步骤了，具体进度计划只是附在后面的东西不是重点南京邮电大学通达学院毕业设计(论文)开题报告文献[5] 基于信息数据分析的微博研究综述[J]；研究微博信息数据的分析，在这类研究中，大多数以微博消息传播的三大构件---微博消息、用户、用户关系为研究对象。

以微博消息传播和微博成员组织为主要研究内容，目的在于发祥微博中用户、消息传博、热点话题、用户关系网络等的规律。

基于微博信息数据分析的研究近年来在国内外都取得了很多成果，掌握了微博中的大量特征。

该文献从微博消息传播三大构件的角度，对当前基于信息数据分析的微博研究进行系统梳理,提出微博信息传播三大构件的概念,归纳了此类研究的主要研究内容及方法。

对于大多用户提出的与主题或领域相关的查询需求,传统的通用搜索引擎往往不能提供令人满意的结果网页。

为了克服通用搜索引擎的以上不足,提出了面向主题的聚焦爬虫的研究。

文献[6]综述了聚焦爬虫技术的研究。

其中介绍并分析了聚焦爬虫中的关键技术：抓取目标定义与描述，网页分析算法和网页分析策略，并根据网络拓扑、网页数据内容、用户行为等方面将各种网页分析算法做了分类和比较。

聚焦爬虫能够克服通用爬虫的不足之处。

文献[7]首先介绍了网络爬虫工作原理,传统网络爬虫的实现过程,并对网络爬虫中使用的关键技术进行了研究,包括网页搜索策略、URL去重算法、网页分析技术、更新策略等。

然后针对微博的特点和Ajax技术的实现方法,指出传统网络爬虫的不足,以及信息抓取的技术难点,深入分析了现有的基于Ajax的网络爬虫的最新技术——通过模拟浏览器行为,触发JavaScript事件(如click, onmouseover等),解析JavaScript脚本,动态更新网页DOM树,抽取网页中的有效信息。

最后,详细论述了面向SNS网络爬虫系统的设计方案,整(转载自：小草范文网:网络爬虫开题报告)体构架,以及各功能模块的具体实现。

面向微博的网络爬虫系统的实现是以新浪微博作为抓取的目标网站。

结合新浪微博网页的特点,通过模拟用户行为,解析JavaScript,建立DOM树来获取网页动态信息,并按照一定的规则提取出网页中的URL和有效信息,并将有效信息存入数据库。

本系统成功的实现了基于Ajax技术的网页信息的提取。

文献[8]引入网页页面分析技术和主题相关性分析技术，解决各大网站微博相继提供了抓取微博的API，这些API都有访问次数的限制，无法满足获取大量微博数据的要求，同时抓取的数据往往很杂乱的问题。

展开基于主题的微博网页爬虫的研究与设计。

本文的主要工作有研究分析网页页面分析技术，根据微博页面特点选择微博页面信息获取方法；重点描述基于“剪枝”的广度优先搜索策略的思考以及设计的详细过程，着重解决URL的去重、URL地址集合动态变化等问题；研究分析短文本主题抽取技术以及多关键匹配技术，确定微博主题相关性分析的设计方案；最后设计实现基于主题的微博网页爬虫的原型系统，实时抓取和存储微博数据。

本文研究的核心问题是，根据微博数据的特点设计一种基于“剪枝”的广度优先搜索策略，并将其应用到微博爬虫中；同时使用微博页面分析技术使得爬虫不受微博平台API限制，从而让用户尽可能准确地抓取主题相关的微博数据。

通过多次反复实验获取原型系统实验结果，将实验结果同基于API微博爬虫和基于网页微博爬虫的抓取效果进行对比分析得出结论：本文提出的爬行策略能够抓取主题相关的微博数据，虽然在效率上有所降低，但在抓取的微博数据具有较好的主题相关性。

这实验结果证明本论文研究的实现方案是可行的。

文献[9]阐述了基于ajax的web应用程序的爬虫和用户界面状态改变的动态分析的过程和思路。

文献[10]对于全球社交网络Twitter，设计并实现了，一个爬虫系统，从另一个角度阐明了Python在编写爬虫这个方面的强大和快速。

仅仅用少量的代码就能实现爬虫系统，并且再强大的社交网站也可以利篇二：毕业论文,网络爬虫在信息获取领域的应用户题目网络爬虫技术在信息获取领域的应用专业学生姓名班级学号指导教师指导单位摘要现在，大多数人们获取信息的途径已经不再是报纸和电视，而是互联网，一个曾被人们所漠视的领域，突然成为了人们获取信息的主要途径。

人们等车前不会拿着报纸埋头读报，而是拿着手机翻看着网页，新闻；人们回到家也不会迫切的打开电视收看新闻，而是打开电脑查看这一天的新闻趣事。

这一切的一切都要归功于搜索引擎，而一个搜索引擎的核心就是网络爬虫。

这篇论文就为大家介绍并实现一个简单的网络爬虫。

本论文一共分为四章，第一章介绍了课题的背景和网络爬虫的现状；第二章介绍了网络爬虫的原理和构架；第三章说明了实现网络爬虫的基本构思和一些需要注意的协议算法；第四章展示了我的制作过程，结果，java代码。

本篇论文向大家展示了爬虫的重要性和实用性，在现代网络中发挥的不可或缺的意义，并向大家展示了亲手实现一个网络爬虫应注意的问题和方法。

向大家充分的说明了网络爬虫的原理和构架。

本文中的爬虫是实用java语言在JDK软件上实现的，具有一定的功能，能较好的从实践上证明之前阐述的原理以及算法。

关键词：网络爬虫，spider ，java ，JDK ABSTRACTNow, most people get their information approach is no longer the newspapers and television, but the Internet, a had been people ignore field, suddenly became the main way people get information. People won't take newspapers such as in front, but took cell phone newspaper leafing through the web, news; The people back to home also won't urgent open television news, but open computer check this day the news fun. They all should be attributed to the search engine, buta search engine core is web crawlers. This paper is to introduce and implement a simple web crawlers.This thesis is split into four chapters, the first chapter presents the background and the subject status of web crawlers; The second chapter presents the principle and the network crawler frame; The third chapter illustrates the basic conception realize the web crawler and some note agreement algorithms; The fourth chapter demonstrates my manufacture process, results, Java code.This paper to show you the importance of reptiles in the modern network and practicability, play essential meaning, to show you the hand implement a web crawlers problems should be paid attention to and methods. To everyone fully illustrates the principle and web crawlers frame.In this paper the crawler is practical in JDK software Java language on implementation, has a certain function, and can better from practice before the principle and the paper proved algorithm is presented.Keywords: Web crawlers, spider, java,JDK目录引言 ................................................ ............................................- 1 -第1章绪论 ................................................ ......................................... - 2 -1.1 课题来源及意义 ................................................ ....................................... - 2 -1.1.1 搜索引擎的分类和整体结构 ................................................ ..................... - 2 -1.2网络爬虫研究现状 ................................................ .................................... - 4 -1.3小结 ................................................ ................................................... ......... - 6 -第二章网络爬虫基本构架 ................................................ ................. - 7 -2.1聚焦爬虫的工作原理 ................................................ ................................ - 7 -2.2抓取目标描述 ................................................ ............................................ - 7 -2.3内容的提取 ................................................ ................................................ - 8 -2.4爬虫的工作过程中索引器的应用 ................................................ ............ - 9 -2.5散列函数的构造法 ................................................ .................................. - 10 -2.6小结 ................................................ ................................................... ....... - 11 -第三章爬虫构思 ............................................................................. - 12 -3.1网络爬虫流程设计 ................................................ .................................. - 12 -3.2解析Html文件 ................................................ ........................................ - 13 -3.3分析Html文件 ................................................ ........................................ - 13 -3.4相关协议的介绍 ................................................ ...................................... - 15 -3.4.1 Socket套接字协议 ................................................ ................................. - 15 -3.4.2 HTTP/HTTPS协议 ................................................ ................................. - 16 -3.4.3 多线程与线程同步 ................................................ ................................. - 16 -3.5 小结 ................................................ ................................................... ..... - 17 -第四章软件实现 ................................................ ................................ - 18 -4.1开发环境 ................................................ .................................................. - 18 -4.11 硬件环境 ................................................ .................................................. - 18 -4.12 应用软件 ................................................ .................................................. - 18 -4.2编译爬虫程序 ................................................ .......................................... - 20 -4.3小结 ................................................ ................................................... ....... - 23 -结束语 ................................................ .................................................. - 25 - 致谢 ................................................ ................................................... .... - 26 - 参考文献 ................................................ .............................................. - 27 - 附录 ................................................ ......................................... - 28 -篇三：机器爬虫运动步态策略研究开题报告XX年3月10日一、选题背景、研究意义及文献综述1、选题背景根据美国陆军1967年调查，地球上近一半的地面不能为传统的轮式车辆或履带车辆到达，而多足式动物却可以在这些地面上行走自如。

e商务文档

网络爬虫开题报告doc

相关文档推荐：