微博内容提取摘要随着近年来微博等社交软件的使用人数日益增多,微博的隐私发展也成为人们日益关注的问题,然而由于微博没有固定的格式约束使得在微博的研究过程中有一些无意义的“噪音”的干扰,本文主要是为了完成微博的“噪音”过滤问题,实现一个小软件,来将新浪微博等微博中下载到本地的微博来进行过滤,去除其中的噪音,提取出纯净的页面内容,主要工作包括以下几个方面:(1)字符串的查找函数与分割函数的实现。
(2)多个文件的查找的函数的实现。
(3)固定字符串的即表情“噪音”的过滤实现。
(4)具有一定正则文法的“噪音”的过滤实现。
关键字:中文微博,微博,过滤,噪音,正则Microblogging content extractionAuthor: LiudiTutor: YangkexinAbstractWith recent years the number of micro-blog using social software is increasing, the development of micro-blog privacy has become a growing concern,However, due to the micro blog there is no fixed format constraint makes the interference of some meaningless "noise" in the research process of micro blog. the purpose of this paper is to complete the "noise" micro-blog filtering problem, the realization of a small software, to be used for filtering the download to the Sina micro-blog micro-blog etc., remove the noise, extract the page content is pure, the main work includes the following aspects:(1) the search function and the function of the string segmentation.(2) the implementation of the search function for multiple files(3) the filter of the expression "noise" of the fixed string.(4) the filter of a certain regular grammar "noise" of the fixed string.Keywords: Chinese micro-blog,micro-blog,filtering ,noise ,regular目录目录 (1)第1章绪论 (1)1.1 研究背景 (1)1.2 国内外研究现状 (2)第2章需求分析 (3)第3章支持平台与开发平台的选择 (4)3.1 平台环境 (4)3.2 开发工具的选择 (4)第4章系统的总体功能分析与结构图 (5)4.1 系统功能分析 (5)4.1.1过滤微博功能 (5)4.1.2读取微博功能 (5)4.1.3删除微博功能 (5)4.1.4处理所有功能 (5)4.1.5退出功能 (6)4.2 系统的功能特点 (6)4.3 系统功能结构图 (7)第5章数据结构的设计与主要全局变量介绍 (8)第6章系统的详细设计 (9)6.1 主界面模块 (9)6.1.1主界面 (9)6.1.2主界面模块流程图 (10)6.2 文件选择模块 (11)6.2.1文件选择界面: (11)6.2.2流程图 (12)6.2.3主要程序代码 (13)6.3 微博过滤模块 (14)6.3.1微博过滤模块界面: (14)6.3.2流程图: (15)6.3.3、主要代码 (17)6.4 批量处理模块 (19)6.4.1流程图: (19)6.4.2、主要代码 (20)6.5 删除模块: (20)6.5.1删除模块 (20)6.5.2删除模块流程图 (21)第7章系统测试与维护 (22)7.1 系统测试 (22)7.2 系统维护 (22)第8章结论 (23)致谢 (24)参考文献 (25)第1章绪论1.1 研究背景微博(Mirco Blog),是用户关系的获取,信息共享,信息传播的平台,用户可以通过多种形式(网页,APP,移动网页,轻应用,第三方客户端等)登录微博,随时随地发布或者分享文字,图片,视频等内容,与好友之间实现信息的即时分享。
最早的微博产品是美国的微博网站Twitter,在全球范围内Twitter已经几乎成为微博的代名词,2009年,中文微博社区“新浪微博”公测,从此,微博类产品正式进入了中国互联网市场。
微博的出现,给人们的交流和分享信息提供了一个新的平台,通过微博,用户可以发表观点,记录日常生活,了解时事新闻,与朋友互动等,随着微博技术的发展,可供用户使用的信息发布形式越来越丰富,包括短信,实时通讯软件,电子邮件。
网页,声音或视频等,而各种客户端的出现,使得用户发布私人信息的门槛越来越低,而且,这些信息可能包含用户的教育经历,工作信息,好友关系,兴趣爱好,价值取向等隐私信息,随着互联网营销和大数据挖掘技术的日益发展,这些信息中包含的价值愈发被人们意识到,从而带动了数据挖掘技术的新发展,而数据挖掘技术推向了又一个新的阶段作为web2.0时代的产物,社交网络和网络媒体的结合体,微博已经被广泛领域相关研究人员进行研究,例如社交网络和媒体分析相关领域,再到计算机科学领域,例如信息见多和自然语言处理方向。
全球范围最流行的微博产品Twitter,已经被用来作为研究微博这一新型产品类型特性的典型案例[1],人们也喜欢将它拿来与传统社交网络和网络媒体进行对比[2.3]。
在信息检索领域,相关研究人员研究了微博检索,与传统网页检索对比[4.5].很多基于Twitter的新研究课题被挖掘了出来,比如事件检测和追踪[6,7.8]、用户情感分析[9]、用户标签分析[10]等。
1.2 国内外研究现状在2011年的KDD会议上,数据挖掘和隐私问题首次引起了人们的关注,Marco pennacchiotti在推特上根据用户的个人信息,微博内容,通过微博发布相关数据(时间,数量),以及社会关系的信息(关注信息,粉丝信息)开发一个新的社会媒体的分类框架的发展,用于判断用户的政治取向,民族和价值取向等隐私内容,这项研究,无疑给公众揭露微博隐私信息问题,人们通常在不经意间分布的内容,暴露的信息远比内容本身大得多。
相比国外的研究人员在对英文微博的研究中国的对中文微博的研究就显得稀少多了,研究结果比较显著的有清华大学自然语言处理研究,更重要的是,他们利用用户发布的微博信息。
根据微博的特点,进一步处理的微博内容,在新浪微博上提取微博用户关键词可以准确、有效地确定用户的兴趣,而这些兴趣的信息就可能是用户的隐私内容。
第2章需求分析由于微博中蕴藏着巨大的隐私信息,以及用户兴趣信息,因此对微博的隐私挖掘是十分有必要的,然而微博不同于一般的科技文章或者新闻,用户发布的微博内容比较嘈杂,每条微博可能各有主题,并伴随着表情、特殊符号(比如@:提到其他用户)、转发等相关性较小的内容.如何对待这些内容将直接影响得到的结果,本文将着重于微博嘈杂信息的处理,即对微博“噪音”的过滤与提取。
本文的主要工作有以下几点:1.界面简洁美观,易于操作,可以用方向键进行选择操作。
2.运行平台为windows操作系统,需要vs2012的相关组件支持。
3.整个系统分为:过滤微博,读取微博,删除微博,批量过滤微博,退出系统五个部分。
4.系统需提前建立一个微博文件夹,并在里面提前保存有微博文件。
5.系统的核心过滤算法。
⑴过滤固定“噪音”函数。
过滤诸如表情,链接按键,视频组件等固定的“噪音”。
⑵过滤两个固定字符串中间的“噪音”的函数。
过滤诸如@某人,主题即两个“#”中间的“噪音”的函数,与上面的过滤固定噪音的函数组合起来可以过滤多种类型的噪音。
第3章支持平台与开发平台的选择3.1 平台环境由于本程序在提取文件目录模块中用到了windows系统的命令所以本程序需要在在windows操作系统下运行,需要Visual Studio 2012相关的组件支持3.2 开发工具的选择本次设计所用的编程语言主要是c语言,开发用具是Visual Studio 2012。
C语言程序是操作内存的程序,具有程序结构执行效率高、编译效率高、程序结构简洁表达式简练、灵活性强、等诸多优点,相对于汇编语言还可以编写规模较大的程序,因此可以更快的过滤微博同时,c语言相对于汇编语言可以使代码的可重用性更强第4章系统的总体功能分析与结构图4.1 系统功能分析该系统将采用层次化模块设计方法对系统总体进行设计和分析。
本系统的功能模块主要完成如下功能:4.1.1过滤微博功能过滤微博功能即是,先从指定文件路径下提取所有文件的名称,然后选择其中的一个文件进行过滤,显示,并将过滤后的微博保存在与程序的子目录下,过滤后的微博文件名称与过滤的前微博文件名称相同。
4.1.2读取微博功能读取微博的功能,即是从微博过滤后的文件路径下提取过滤后的微博文件名称,然后并读取其中的内容并予以显示,方便随时读取过滤后微博的内容,省去了查找文件的精力。
4.1.3删除微博功能一共提供了三种删除模式,分别是删除过滤前微博,即删除一条过滤前的微博,删除过滤后的微博即删除一条过滤后的微博,以及批量删除所有过滤后的微博。
前两种方便删除单条的微博文件,最后一种方便对微博的批量删除管理,文件进行管理。
比如:对文件的删除、过滤、批量管理等操作。
4.1.4处理所有功能即一键过滤所有的待过滤的微博,虽然机器过滤的速度远远快于人的反应速度,但是如果让人一条一条的过滤,机器的优势并不明显,所以批量处理是必要的,处理所有,即一次将所有待过滤的微博文件进行过滤并保存,从而实现了批量过滤,大大的提高了执行效率。
4.1.5退出功能即退出程序4.2 系统的功能特点1.操作简单、界面友好,只需要操作方向键就可以完成。
2.即时可见:对文件的操作(包括删除过滤选择)操作之后,在对应的路径下的微博内容将会立即更新,用户可以随时地确认自己过滤后的微博是否保存下来,过滤后的微博文件可以随时打开确认内容。