当前位置:文档之家› 网络热点事件发现-计算智能

网络热点事件发现-计算智能

网络热点事件发现■计算智能 上海大学2015〜2016学年冬季学期研究生课程考试

文献阅读报告

08SB69005

题网络热点事件检测

研究生姓名: 学号:

论文评语:

成绩: ___________________ 任课教师: 王路课程名称: ________ 《

计算智能》 课程编号: 网络热点事件检测

2016年03月15日

摘要:网络的事件检测与内容挖掘是一个重要的研究方向, 其任务是实时监控新闻报道流、

网页及微博、微信等媒体,并从中识别新话题、新事件。现有方法在基于网页的事件识别中 已经比较成熟,然而对于一些与传统媒体相差甚大的新媒体,例如微信,事件识别算法还比 较欠缺。本文通过分析三篇事件检测的论文,对事件检测的方法进行了探讨,并且对于新媒 体的事件检测算法提岀了一些改进建议及思考。

关键词:事件检测算法新媒体

Inheritance Anomaly in Concurrent Object

Orientation Abstract: Network event detection and content mining is a hot topic. Its

task is to monitor the real-time news streaming, web pages, microblogging, blogs and other media, and then identify the

new topic and event. The existing methods are mainly focused to identify the webpage-based event, and it has been

relatively mature, however, for some of the new media like twitter, which is highly different from the normal webpage,

event recognition algorithm is relatively lacking. This paper analyzes three event detection papers, and gives a brief

introduction, finally put forward some suggestions for new media event detection algorithm in future improvement.

Key Words: event detection; algorithm; new media

1 研究背景及意义

热点事件是指某个时间段内各个领域内发生的 引起人们较大关注的事件。如:“郭美美事件”、“表 叔杨达才事件”、“房姐龚爱爱事件”等。这些事件都 是来源于网络热点事件,这些事件对社会产生了重要 的影响。然而目前对于热点事件的提取通常都是人工 筛选的。

然而,在信息化的时代,网络信息的数据量成几 何级增长,而且由于网络中言论的自由化,虚拟化, 导致网络信息真假难辨,鱼龙混杂,此外网络中的信 息传播速度快,受众量大,传播范围广,尤其是近年 来出现的微信,微博等新兴传媒形式,具有内容简短, 参与发言人数众多,话题随意性强等特征。这些网络 媒体所具有的特征导致人工识别和研判显得力不从 心,如何利用计算机网络技术、人工智能技术和数据 挖掘技术自动的检测和挖掘热点事件成为一个重要 的研究课题。

热点事件的发现方法有很多,目前研究的一个重

要方向是在话题的基础上进行热点事件检测。 话题是

指一个种子事件以及所有与其直接相关的事件与活 动。例如:马航飞机的失联,失联本身是一个热点事 件也是一个种子事件,而随后发生的一系列的营救活 动,经济影响,政治影响等均属于此话题的直接相关 事件。

目前有关话题事件的研究的工作主要集中于两 类方法:一种是基于传统向量,空间话题模型的话题 演化挖掘[13],通过将文档的时间信息作为话题属 性引入到话题特征计算,进而构建具有动态演变性的 话题模型;另一种方法则是在概率话题模型的基础 上,通过计算时间信息与话题、文档、词项的后验概 率分布完成对话题事件的内容检测和挖掘[19,20]。

随着微博这种新兴传媒的产生,其内容简短、随 意性强的特性导致了一个新的热点事件检测方向。[1] 探讨了利用tweeter来做事件检测,运用其中的时间、 文本以及地理标识[1]。Cheng[7]等提出了一个通过 用户发布的微博内容预测用户发布微博的位置信息 的模型。文献[8]中则提出了社会化社区中流行事件 跟踪的统计模型,并和传统的感染模型进行了比较。 Lee等人[10,11]对关键词定义了 BursT加权公式,并 引入了滑动窗口实时监控事件的发生。[12]使用主 题模型,对微博文本进行主题建模,从而避免数据稀 疏问题。

2基于关键词元的话题内事件检测[23]

2.1主要思想

由于事件的个数难以确定,且相同话题的不同事

件新闻间的相似度较大。所以之前的基于话题的事件 检测算法算法有所不足,于是本文提出了基于事件词 元委员会的事件检测与关系发现方法。即首先挖掘每 个事件的核心词元,从事件区别于其他事件的核心词 元(词元委员会)入手,以核心词元代表事件,通过 新闻与核心词元的相似度判断事件的核心新闻 ,进

而根据新闻与事件核心新闻的相似度判断新闻所属 事件。在 Linguistic Data Consortium ( LDC) 的两个 数据集上的实验结果显示,提出的事件检测与关系 发现方法可以显著地改善已有方法的效果。

2.2算法主要步骤

本文算法主要分为基于词元委员会的事件检测 和基于词元委员会的事件关系发现两个部分。

2.2.1基于词元委员会的事件检测 a) 新闻表示

先进行分词、简写识别与名称归一化、词性标注 等预处理,随后对每个新闻生成词频向量。 最后根

据词频向量生成新闻的带有词元权重信息的新闻描 述向量。

b) 事件词元委员会的发现

首先对于每个词元建立一个新闻集合 :F (w )=

{ d | d为包含词元w的新闻文档}。

词元发现委员会算法:将所有词元组成一个集合

R,对于R中词元进行层次聚类,生成词元委员会C。

c) 事件中心新闻的提取

虽然一个事件的主要内容为几个核心词汇,但是 事件往往有略微的主题漂移,即某篇新闻的主要内容 并非事件的核心内容。因此需要根据词元委员会发现 一个事件的核心新闻簇,并利用此新闻簇做最终的事 件检测。对于一个词元委员会C,建立一个对应的核 心新闻簇DC,若一个新闻d包含一半或一半以上 C中的词元,则将d加入到新闻簇DC。

d) 新闻事件分配

将每篇新闻与不同的核心新闻簇做相似性比较, 相似度采用新闻与新闻簇中的所有新闻的相似度的 平均值。若最高相似度大于预定义阈值,则将此新闻 加入到相应的新闻簇中,否则新建一个新闻簇,并加 入此新闻。

2.2.2基于词元委员会的事件关系发现

a) 使用事件的时间顺序与事件间新闻的平均相 似度两个属性。

b) 词源类型:与整体话题紧密相关的词元、此 事件紧密相关的词元、相关事件紧密相关的词元和非 重点词元。其中第一类和第四类会产生噪声,只有第 二、三类是有用的。

c) 重新定义词元权重:对原来的权重进行加权,

用以消除第一类和第四类噪声。定义事件间相似度: 两个事件间新闻相似度的平均值。

d) 定义事件关系:对于事件 e,定义e之前的 所有事件ek中与e相似度最高且高于某阈值的事件 ei为e的父亲事件。

3基于twitter的事件检测[1]

3.1 主要思想

由于越来越多的人在使用twitter,直至2012年,

已经有超过5亿用户。而且其实时性强,平均每人每 天刷微博次数大于 1次。此外,很多事件都是从 twitter最早发现并扩散开的,例如:Haiti的大地震。 因此这篇文章是基于twitter的事件检测,其做 法是将Twitter用户看做是传感器(sensor)。当地震 发生时,Twitter用户会大量发布相关的微博,被看 做是传感器感应并发送的信息。文章先通过一个分类 器,监测到目标事件,然后通过一个概率时空模型找 到事件位置的中心和动态。

这篇文章的主要贡献:(1)提出了一个融合了语

义特征和实时性的twitter的数据的一个应用前景。

(2)对于地震预测和早期发现报警,本文提出了一 种自发的,社会性的方法。

算法的整体流程如图1所示:

图1算法流程示意图

3.2算法主要步骤

3.2.1目标事件的选择

这篇文章选取的目标事件具有以下几个特征:

(1)大规模,如:海啸、地震;(2)影响人们的日

常生活(3)有显著的时间和空间特征。

这篇文章作为实验选择的是日本的大地震。

3.2.2事件检测

a) 关于twitter的语义分析

主要包含:选取关键词,如: earthquake等; 噪音分类:与目标事件无关的,如:“ I am attending an earthquake conference ”,和非实时性的事件,女口:

“ The earthquake yesterday was scaring ”; 使用

svm 算法去除噪音,以: “I am in Japan, earthquake

right now!"(搜索关键词为:earthquake )为例,其特征

如下表1所示:

表1 SVM的特征

特征名

称 特征含义 举例

数值特

征 Tweet的长

度及搜索词所在

位置 7个词、第

5个 1

关键词 特征 切分词 I am ir

Japa n

earthquake

right now 1

上下文

特征 关键词前后

位置的词 Japa n

right

b) Tweet作为感知传感器

(1)假设1:每个twitter被认为是一个传感器, 当检测到目标事件时,传感器以一定概率发送消息。

相关主题