当前位置:文档之家› 话题发现与跟踪技术

话题发现与跟踪技术

话题发现与跟踪技术
一:方案提出
1 利用网络爬虫Nutch将爬到的数据存储在表Crawler中
2 将表中数据(标题和正文)进行特征向量提取,得到VSM(Vector Space Model)向量空间模型
3 用KNN聚类算法进行第一次聚类得到微类集合
4 用单连通算法(Single-Pass算法)进行第二次聚类得到精确的聚类结果
5 根据热点事件发展曲线识别出热点话题
6 话题呈现
二:网络舆情分析
1 系统总体结构:
话题发现模型:
1 主题网络爬虫定义:主题网络爬虫就是根据一定的网页分析算法过滤与主题无关的链接,保留主题相关的链接并将其放入待抓取的URL队列中;然后根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。

基本思路:按照事先给定的主题,分析超链接和已下载的网页内容,预测下一个待抓取的URL以及当前网页的主题相关度。

2 信息采集流程:
1)输入WebURL
2)Web相应?
3)否就结束;是就进行下一步
4)初始化URL队列
5)数据流(读取数据流类)
6)信息分类存储(正则表达式匹配类)
7)数据库(操作数据库类)
8)添加到新URL队列
9)重复第2)步直到URL队列为空
3 热点分析过程
包括:热点分析起始时间,热点信息显示,舆情采集信息和话题活性图
4 存储记录
存储一条记录时,程序首先通过MD5将网络爬虫提取的每一个字段值联合成一个字符串进行加密,映射成32位长的UDDI,作为此数据的标识。

实现去重功能
MD5去重复URL:
Message-Digest是指字符串的Hash变换,即把一个任意长度的字符串变换成一定长的大整数。

MD5加密以512位分组来处理输入的信息,且每一组又被划分为16个32为子分组,将这四个32位分组级联后将生成一个128位散列值。

MD5算法是一个不可逆的字符串变化算法。

特性:
1)任意两端明文书局加密以后的密文不含相同
2)任意一段明文数据经过加密后其具体结果必须永远是不变的
三:热点事件发现
1 TDT相关概念
话题(Topic),事件(Event),报道(Story),主题(Subject)
TDT也把包括一个核心事件以及所有与之关联的事件的总和称为话题。

即话题就是关于某个事件的所有报道的集合。

报道:指描述某个事件的新闻片段。

话题:不是指一个大的主题,而是一个具体的事件。

2 话题检测与跟踪
分为五个子任务:
1)报道切分(Story Segmentation)
2)新事件检测(New Event Detection)
3)关联检测(Link Detection)
4)话题检测(Topic Detection)
5)话题跟踪(Story Tracking)
话题发现任务的本质是将输入的新闻报道流划入不同的话题类,并在需要的时候建立新的话题类,其过程等同于无指导的聚类过程,且属于一种增量聚类,一般可划分为两个阶段:新事件检测阶段和后续的新闻报道流中的报道划入相应的话题类阶段。

3 热点事件内容特征自动抽取
网络新闻中热点事件的发现及热点事件内容特征的自动抽取。

主要包括:1)Web新闻网页的自动采集
2)网页正文的抽取及去噪
3)事件发现算法
4)热点事件判别
5)对热点事件不同层面内容特征的自动抽取
事件发现算法:
第一层:采用凝聚聚类算法对每天的语料进行聚类,得到每天的微类。

第二层:采用Single-Pass聚类算法对用户选择的某一段事件内的所有天的微类,按照微类间的时间顺序进行聚类得到事件列表。

4 热点事件发现
1)网络新闻语料采集(爬虫)
2)语料预处理
文档向量化是计算文档之间相似性的基础,每个文档d表示成V(d) = (t1,w1(d);,,,,,,,,,,,ti,wi(d);,,,,,,,,,tn,wn(d));其中ti为特征向,wi(d)为ti在d中的权值。

文档分标题和正文两部分,也对命名实体进行加权。

特征向ti权重的计算,改进TF*IDF方法:
相似度计算:
计算相似度建立相似度矩阵:
余弦夹角公式:
加入时间衰减函数T,描述如下:
特征词权重:
向量空间模型:
向量空间模型(VSM):
热点发现及跟踪:
网页信息预处理:
文档的向量表示:
度量事件热度:(时间单元为一周)
主题文章的向量表示:
四:事件发现与跟踪
五:热度,关注度等度量
度量事件热度的三个特征量:
话题关注度计算公式:
六:算法实现:K均值算法:
KNN算法:
单连通算法:
Single-Pass聚类算法:
KNN 算法的K值的选取:
改进的KNN算法:
改进的Single-Pass算法:
事件跟踪算法:
增量聚类算法流程:
七:话题发展曲线话题发展曲线:
事件发展曲线图:。

相关主题