当前位置：文档之家› 基于层次聚类的微博敏感话题检测算法研究

基于层次聚类的微博敏感话题检测算法研究

［］９－１０
２基于层次聚类的话题检测算法
２．１层次聚类算法设计原理层次聚类算法是一种非常经典的聚类算法．广泛应用于文本识别、文本分类等相关应用领域，并且通过长时间的应用表明，层次聚类算法在文本识别和分
３１４－类方面具有很好的应用价值１．［］
［］［］［］
赵艳红，聂哲提出一种针．
＊
收稿日期：２０１２１０１２．－－（）基金项目：广西哲学社会科学课题 “ 基于物联网技术的图书馆服务模式研究 ” １１ＢＴＱ００１．，作者简介：潘大庆（男，广西柳州人，柳州市委党校副教授，工程硕士，研究方向：计算机网络安全．１９７０－）
关键词：敏感话题；层次聚类；检测；微博；词频；词性中图分类号：ＴＰ１８文献标识码：Ａ（）文章编号：１６７３－８４６２２０１２０４－００５６－０４
０引言
随着信息时代的迅猛发展，网络舆论对国家和社会的稳定与发展有着十分重要的影响作用１－２．而近年来，在网络上新出现的微博这种信息发布和传播方式，在很短的时间内受到广大用户的青睐，并且利用微博进行信息的发布已经成为当前形成和传播社会为了能够对通过微博发布和传舆论的一个重要途径．播的社会舆论更好地跟踪和识别，有必要开展对微博舆论的监测和识别算法的研究．目前，针对网络上的娱评分析和研究的相关工作，在数年前已经有一系列的研究成果．比如：洪宇，张宇等通过介绍话题检测与跟踪的研究背景、任务、定义、评定方法以及相关技术，分析了目前ＴＤＴ领［３］洪宇，张宇，范域的研究现状展望未来的发展趋势．基礼等提出基于语义域语言模型的关联性检测方法来检测任一新闻报道是否为论述同一话题，显著改进了现有检测系统话题检测算法研究之前，需要对微博话题建立描述模型，并通过完善的微博信息适时获取平台采集，微博信息的适时更新状况并通过采集的微博更新信息应用微博话题的描述模型进行微博话题的归一化表示由于微博信息的发布方式与．普通的网页发布方式有较大的差别，微博能够通过用
户之间建立起来的关联关系快速地进行信息的转载因此，在网络上获取微博信息需要首先对微和传播．博用户所建立的连接关系进行提取，采集微博用户当前与其相关联的其他微博用户并对用户相关联的所有微博用户信息更新状态进行了监控，一旦发现任何一个用户扩散的微博信息有更新，则立刻对更新的微博内容进行采集．通过这种方式能够及时的发现网络并及时地对所有上微博用户的信息发布及更新情况，完成微博语料的最初始的微博更新的信息进行采集，提取
层次聚类算法的设计原理是根据待聚类的初始文本信息进行划分，假设初始待分类的文本信息有Ｎ组，则将每一组文本信息设定为一个初始的分类．因此，Ｎ个待分组的数据源将形成Ｎ个初始的分类结果，之后对所形成的初始分类结果进行层次化的聚类．其聚类的原则是：对初始分类结果中的不同类两两进行比较，分别计算任意两个类之间的相似度值，并形成分类结果的相似据证，如果相似据证中的某个元素小于分类预值，则将这两个分类结果形成一个新的聚类集合．如此不断循环，直到待分类的初始的文字语料全部进行聚类计算并得到与预期要求的分类此时，停止聚类算法，输出数目完全一致的分类结果，聚类结果．传统的这种分层聚类算法在具体实现过程中主）当使用文本特征词描述微博话要面临以下问题：１如果一篇微博中含有大量的特征词则将导致描题时，述该微博的特征向量维数特别高，当表示微博话题的向量维数特别高时，进行向量间的空间距离计算以及不利微博向量的分类结果评价的计算量都非常的高，）层次聚类并没有给于快速实现层次划分的目的．２出理想的聚类终止条件，目前人们设计和实现的层次聚类算法往往是按照预先设定的聚类目标进行计算，一旦形成了与目标分类数一致的分类结果则停止聚类计算．这种控制策略不能保证聚类结果在最佳的状态时停止．有的时候可能有些分类之间仍然是非常相似的，但聚类算法已经停止运算了；有的时候是分类但层次聚类算法按照结果已经不能够再进行合并了，算法流程强制将某些分类结果进行合并，反而使用户理解各分类结果时产生内容含义上的混淆．为了解决传统的层次聚类算法存在的问题，针对微博数据源的特点必须设计一种实现简单易于控制的层次聚类算法，使其能够实时的处理各种新产生的微博信息，并能够智能的根据当前的聚类结果控制聚类层次的深度，避免聚类过程的不足或过头．２．２层次聚类算法详细实现为了提高层次聚类算法的实现速度，笔者设计的
计算机技术
提取所有的特征词会给微博敏感话题检测增加很大但可以在后续通过改进和优化处理算法提的计算量，高处理效率．由于笔者在处理微博敏感话题提取过程中以特征词作为衡量微博话题内容的重要指标．因此，对微博话题进行描述时采用空间向量的模型进行描述，即一个微博话题可以表示为多个特征向量值所组成的具体如下：空间向量．对于任意的一个微博文档，抽取其特征词表示该由于每个特征词对整个微博文微博文档的内容特征，档的影响力各不相同，因此，可以给每个特征词定义一个权重，此时微博文档的空间向量模型表示为： …， …，Ｂ＝（ｓｗ１，ｓｗｉ，ｓｗｎ）１ｉｎ其中Ｂ表示微博文档，ｎ表示微博文档空间向量模型定义的维数，维数越高则微博文档描述越精细，越能精确地反映微博中的内容，但随之信息处理的复，杂度也越来越高．向量模型中各特征值ｓｉ相互独立既无直接联系也无重叠．而且在向量模型中，各特征值定义的前后关系与模型表达的含义无关．利用微博文档的向量模型，可以定义文档之间话

基于层次聚类的微博敏感话题检测算法研究
＊
潘大庆
（）柳州市委党校，广西柳州５４５００６
计算机技术
摘要：针对微博对社会舆情影响力日趋增大，设计了基于层次聚类的微博敏感话题检测算法，通过对
５７
广西民族大学学报（自然科学版）０１２年１２月第１８卷２
层次聚类算法从以下三个方面进行了改进：第一，在进行层次聚类计算时，每次只在之前的聚类基础上将聚类基产生的微博数据与历史形成的结果进行合并，即以历史聚类产生的结果为参考，将其中一部新产生的微博数据合并到历史聚类结果中，分数据将直接合并到历史聚类数据中的某一类别中，有些确确实实的新产生的话题则重新形成新的分类结果，通过采用这种增量式的聚类计算结果可以保证使得层次聚在算法的运行过程中大幅度减少计算量，类算法的聚类结果能够满足微博信息实时动态增加的应用特点，第二，在进行聚类运算时，由于一些热点话题其所对应的话题量会急剧增加，因此，对于这类热点话题，其聚类的层次应该变得更为精细．因此，针对热点话题进行层次聚类计算时所选取的聚类相似度应该因此需要对设计的层次聚类与其他衡量词度不一样，算法在实现过程中对每个类别中所包含的微博数量进行限制，当符合同一话题的微博数量达到预先设置的预值之后，新产生的同一话题的微博与此将不再合并，而是作为一个新的话题归入一个新的类别中．通过限定每一个话题微博中的数量可以保证对于一些热点敏感话题进行聚类分析时得到更为精细的分类并且可以从分类结果中清晰地看出热点话题随结果，着时间段的推移其话题的主题不断演化的过程．第三，在进行微博话题层次聚类运算时每次获得新增加的微博信息都需要对历史产生的分类结果和新增加的分类数据进行两两相似度的判断，两个类别的相似度的分析又以两两元素之间的计算为基础，当判断两个类别的一个类别中的微博数量比较庞大时，相似度运算的复杂度将变得比较大，因此随着时间段的推移，聚类算法到后来所消耗的时间将越来越多．因此，为了提高运算的效率，笔者在计算两个分类之间的相似度时，每次都尽可能地从距离最远的两个元素之间开始计算，一旦计算到两个元素之间的距离大于预先设定的预值，则认为这两个分类相似度较低，不满足聚类的条件，直接退出后续的聚类运算，以此提高聚类算法的运算速度．２．３层次聚类算法实现流程根据层次聚类算法的设计原理，笔者设计了如图在进行微博敏感话１所示的层次聚类算法实现流程．题检测之前，首先通过微博之间的用户关系建立微博用户关系数据模型并通过所建立的微博用户关系数据模型引导网络爬虫对相关联的用户微博上的信息以此获得微博话题检测中的原始语料设进行扒取，计，之后按照微博话题模型对所获取的数据进行描

e商务文档

基于层次聚类的微博敏感话题检测算法研究

相关文档推荐：