当前位置:文档之家› 基于社交网络签到数据的时空模式挖掘系统的设计与实现-计算机学院毕业设计开题报告

基于社交网络签到数据的时空模式挖掘系统的设计与实现-计算机学院毕业设计开题报告

二、毕业设计的基本内容、预期目标
基本内容:
随着社交网络和移动智能设备的迅速发展,人们将越来越多的日常生活信息分享在社交网络上,例如照片、地理位置、社交关系、行为活动等。目前很多社交网络应用均支持位置签到服务,使得用户的社交体验更有时空感。
签到数据是个体时空轨迹的采样,而个体的生活模式和规律可以从时空轨迹中体现出来。由于生活模式通常具有周期性并且签到数据呈现时空非连续性,因此签到数据表现出类周期性。基于类周期性的签到数据可以推演出个体对于某些地点的规律性访问,我们称为个体的时空模式。本课题面向社交网络签到数据设计并实现一个时空模式挖掘系统,具体功能包括:
3、HBase数据库的设计与实现和签到数据的存储。
4、签到数据的时空模式系统的图形化界面显示。
5、基于社交网络签到数据的时空模式系统在浏览器端的各项操作。
关键问题的解决方案:
1、签到数据的时空模式的算法研究,查阅国内外有时空模式算法的资料,了解目前该项技术的基本情况以及实现的方法步骤。
2、签到数据的时空模式的算法实现:
随着社交网络和移动智能设备的迅速发展,人们将越来越多的日常生活信息分享在社交网络上,例如照片、地理位置、社交关系、行为活动等。目前很多社交网络应用均支持位置签到服务,使得用户的社交体验更有时空感。
签到数据是个体时空轨迹的采样,而个体的生活模式和规律可以从时空轨迹中体现出来。由于生活模式通常具有周期性并且签到数据呈现时空非连续性,因此签到数据表现出类周期性。基于类周期性的签到数据可以推演出个体对于某些地点的规律性访问,我们称为个体的时空模式。
社交网络即社交网络服务(Social Network Services,SNS),它是互联网应用中以支持用户互动行为为特征的一类Web2.0应用和系统的统称。它的发展大体经历了四个阶段:早期概念化阶段一一小世界理论,娱乐化阶段,社交图阶段和垂直社交网络应用阶段。在社交网络中,用户之间的交流从传统的以“计算机”为单位变成了以“人”为单位,网络的参与主体发生了根本性的变化。比较知名的社交网站有Facebook、Myspace等。近年来,随着社交网络越来越引人注目,它已成为用户量最大、传播范围最广、商业价值最高的互联网应用。它的出现颠覆了人类传统的社交模式,降低了沟通成本,吸引了多方面的信息注入与会聚。
with social and spatial proximity. In WWW’10, pages 61–70, 2010.
[7]E. Cho, S. A. Myers, and J. Leskovec. Friendship and mobility: user movement in location-
时空关联模式:时空关联模式主要研究空间对象随时间发生变化的规律,即在传统关联分析的基础上加上了时间和空间约束,以发现时空数据中处于一定时间间隔和空间位置的关联规则。
时空周期模式:时空周期模式通过频繁模式进而发现其中的周期,预测未来某个时间段内可能出现的状态和动作。
四、工作进度安排
1、设计并实现签到数据的时空模式挖掘算法。(2016/4/1~2016/4/28)
[3]虞益诚:Java程序设计及应用开发教程,北京:中国铁道出版社,2015.09
[4]丛湘香:大数据下的时空模式挖掘算法,中国知网,2012.01
[5]L. Backstrom, E. Sun, and C. Marlow. Find me if you can: improving geographical prediction
国内外研究动态:随着网络、数据库技术的迅速发畏以及数据库管理系统的广泛应用,人们积累的数据越来越多。数据挖掘(Data Mining)就是从大量的实际应用数据中提取隐含信息和知识,它利用了数据库、人工智能和数理统计等多方面的技术,是一类深层次的数据分析方法。近年来数据挖掘的研究对象已经从事务型数据库扩展到空间数据库、时空数据库、移动对象数据库等。
3、JavaSwing插件实现图形化界面(2016/5/8~2016/5/17)
4、系统支持浏览器操作(2016/5/18~2016/5/30)
五、参考文献
[1]蒋盛益,张钰莎,王连喜编著:数据挖掘基础与应用实例,北京:经济科学出版社,2015.05
[2]刘伍颍:面向大数据的高效能垃圾文本分类,国防工业出版社,2014.10
七、开题检查小组意见
组长(签字):年月日
based social networks. In KDD’11, pages 1082–1090, 2011.
[8] Thorsten Joachims,”Text Categorization with Support Vector Machines: Learning with Many Relevant Features”
沈阳航空航天大学
计算机学院
毕业设计开题报告
课题名称:
基于社交网络签到数据的时空模式挖
掘系统的设计与实现
学生姓名:
马小亮
学号:
2012040101221
指导教师:
夏秀峰
报告日期:
2016年3月ห้องสมุดไป่ตู้0日
一、本课题的国内外研究动态、题目来源和意义
题目来源及意义:社交网络其实是源于网络社交的需要。从最早的网络社交工具电子邮件(Email)到后来出现的电子公告牌系统(BBS)和博客(Blog),人们之间的交流模式经历了从点对点到点对面的演化过程。网络中的节点越来越“形象化”和“个性化”,社交网络随之出现。
时空数据库挖掘研究作为一个新的研究领域,主要是面向各特定应用领域的,一些研究工作正在处于起步阶段,但它已受到国际学术界和工业界的广泛关注。时空挖掘挖掘的理论研究主要受到空间数据挖掘和时态数据挖掘研究的影响,并以经典的数据挖掘理论为基础,同时还受到时空数据表示和存取方式限制。
抽象的时空数据模型必须与有效的数据结构和索引结合才能满足查询要求。直到近几年,有关时空数据库的索引研究才较多的出现。随着时间维的引入,使得对时空数据库中的新的规则挖掘成为可能,如时空元规则、时空泛化、时空聚类和关联、演化规则等。到目前为止,时空数据挖掘的相关理论基础尚跟不上应用发展的步伐,而各行业领域对时空数据挖掘技术的巨大需求已渐露端倪。其它领域如遥感信息处理、精细农业等的相关研究工作也都聚集到时空数据挖掘的范围内,进一步扩大了时空数据挖掘研究的影响。另外,美国Sarnoff公司关于图象序列中物体时空移动模式提取技术的专利申请正在受理中。综上所述,相信在移动互联网迅猛发展的21世纪,时空数据挖掘技术将会成为一个新的研究热点,并有可能在多个应用领域提供具有商业价值的关键技术。它能带来的巨大经济效益,使它的发展前景不可限量。数据挖掘技术应用所能够带来的巨大效益也必将刺激中国数据挖掘市场的发展,因此,中国数据挖掘市场必将前景广阔,商机无限。
1.1定义不同时空模式的含义和区分标准(2016/4/1~2016/4/5)
1.2时空模式的特征选择(2016/4/6~2016/4/8)
1.3时空模式的算法(2016/4/9~2016/4/21)
1.4文本分类算法(2016/4/21~2016/4/30)
2、HBase数据库存储签到数据(2016/5/1~2016/5/7)
前期准备Hbase数据库的基础知识,解决签到数据的存储问题。学习数据挖掘算法及其实现的过程,掌握Java API、Java Swing技术为以后烦人编程和显示界面做准备。
三、研究步骤、拟解决的关键问题及解决方案
研究步骤:
1、研究签到数据的实际意义和模式分类。
2、设计并实现签到数据包含的模式和相应的算法。
1.设计合理的数据库结构,采用HBase存储社交网络签到数据;
2.研究社交网络签到数据中存在的时空模式;
3.针对不同时空模式,研究和实现相应的时空模式挖掘算法;
4.系统支持图形化显示,包括用户时空模式显示、用户历史轨迹显示等功能;
5.要求系统支持在浏览器端进行各项操作;
预期目标:
研究签到数据的信息,里面包含签到数据的时间、地点和用户ID,研究出合适的数据存储结构,保存到数据库中。通过分析签到数据结合时空模式挖掘算法,找到相应的时空模式。一般的时空模式包含有频繁模式、周期模式和关联模式。
[9]Nello Cristianini,An Introduction to Support Vector Machines and Other Kernel-based Learning Methods,Cambridge University Press,2000
六、指导教师审阅意见
指导教师(签字):年月日
时空频繁模式:人们感兴趣的是从一个时空序列里发现频繁重复的路径,即时空频繁模式。这些被发现的频繁重复模式能协助研究人员完成关于移动对象的分析、预测等任务,进而可将其应用于经营商业、旅游业和管理城市交通等方面决策。时空数据库中挖掘频繁序列模式,并提出一种新算法DFS-MINE,该算法利用深度优先搜索,通过扫描数据库来挖掘序列模式,能同时支持在不同空间粒度上进行序列挖掘。
相关主题