当前位置:文档之家› 社交网络数据采集算法的设计(软件工程课程设计报告)

社交网络数据采集算法的设计(软件工程课程设计报告)

软件工程课程设计
社交网络数据收集算法的设计
组号 组长 组员 组员 组员 姓名:盖云东 姓名:任志成 姓名:马剑楠 姓名:陈海涛
第 21 组 学号:130104010049 学号:130104010121 学号:130104010004 学号:1301040们正处于一个信息爆炸的时代。社交 网络数据信息量大、 主题性强,具有巨大的数据挖掘价值,是互联网 大数据的重要组成部分。一些社交平台如 Twitter、新浪微博、人 人网等,允许用户申请平台数据的采集权限,并提供了相应的 API 接口采集数据,通过注册社交平台、申请 API 授权、调用 API 方 法等流程获取社交信息数据。但社交平台采集权限的申请比较严 格,申请成功后对于数据的采集也有限制。 因此,本文采用网络爬虫 的方式,利用社交账户模拟登录社交平台 ,访问社交平台的网页信 息,并在爬虫任务执行完毕后,及时返回任务执行结果。 相比于过去 的信息匮乏,面对现阶段海量的信息数据,对信息的筛选和过滤 成为了衡量一个系统好坏的重要指标。本文运用了爬虫和协同过 滤算法对网络社交数据进行收集。
关键词:软件工程;社交网络;爬虫;协同过滤算法
目录
摘要 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · -2目录 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · -3课题研究的目的 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · -11.1 课题研究背景 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · -12 优先抓取策略--PageRank · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · -22.1 PageRank 简介 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · -22.2 PageRank 流程 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · -23 爬虫 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · -43.1 爬虫介绍 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · -43.1.1 爬虫简介· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · -43.1.2 工作流程 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · -43.1.3 抓取策略介绍 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · -53.2 工具介绍 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · -63.2.1 Eclipse · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · -73.2.2 Python 语言 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · -73.2.3 BeautifulSoup · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · -73.3 实现 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · -83.4 运行结果 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · -94 算法部分 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · - 10 4.1 获取数据的三种途径 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · - 10 4.1.1 通过新浪微博模拟登录获取数据 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · - 10 4.1.2 通过调用微博 API 接口获取用户微博数据 · · · · · · · · · · · · · · · · · · · · · · · · - 11 4.2 基于用户的协同过滤算法 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · - 14 4.2.1 集体智慧和协同过滤 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · - 14 4.2.2 深入协同过滤核心 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · - 15 4.3 算法实现 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · - 18 结论 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · - 21 参考文献 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · - 22 -
相关主题