当前位置:文档之家› 基于ART模型的语义社会网络分析及其在白领犯罪中的应用

基于ART模型的语义社会网络分析及其在白领犯罪中的应用

基于ART模型的语义社会网络分析及其在白领犯罪中的应用
摘要:本文在贝叶斯网络的基础上提出并讨论了基于发送者-接收者-话题,即ART(Author -Recipient-Topic)模型的语义社会网络分析技术,以人与人之间发送的对方向敏感的消息(message)为研究对象从社会网络数据中探查隐藏在人际之间的关系,这种方法通过发送接收对,不仅模拟了从一个人的实体到另一个实体的连接,还更好的预测了人的角色,从而提高了结果的准确程度。

关键词:ART模型社会网络分析(SNA) 语义分析白领犯罪社会网络分析(SNA)是对人,组织和团体之间交往的数学模型的定量研究。

近年来,大量可用的人际交往方面数据集的出现,国内外社交网站的蓬勃发展以及经济犯罪案件的侦破等事件促进了对社会网络分析的研究。

传统的研究工作强调二元交互,形成有向有加权的边,采用点,线模拟个体间的交流产生的相互关系。

这在展现传统的人际交流模式上十分有效,但随着网络技术的不断发展,人与人之间的交流朝着便捷化,海量化、多样化方向发展因此对社会网络进行高效准确的分析日益困难。

另外,出于对安全的需要,社会网络分析在统计的自然语言处理,获取交流语言内容,如单词,话题,以及其他交流内容的多维特性等方面需要进一步研究。

本文提出并研究了基于ART(Author -Recipient-Topic)模型的语义
社会网络分析。

该模型以发送者和接收者为条件共同决定每条消息中的话题分布,因此结果受到消息发送和接收的社会结构的影响,对每一个发送-接收对都有关于话题的多项分布。

我们也能计算出仅仅依据发送者或者接收者而得出的关于话题的边缘分布,从而找出群体中个人最有可能发送和接收的话题。

更重要的是,通过有效地利用这些基于人的话题分布测量人与人之间的相似性及引入Freeman的中心度方法,通过产生发送者和接收者的角色关联以及以基于角色分配的话题分布为条件,利用相似性,中介程度,以及与其他人的接近程度聚类发现单个人的角色和重要程度。

本文给出了一个拥有83个人物,400条短消息,21000词汇手机信息交互的公司员工群体的数据集的测试结果,预测了隐藏其中的白领犯罪的疑似罪犯,通过与已知数据的对比发现预测结果比较理想。

另外,关注点的不同对参数的适当改变使得方法对探索群体中其他类型的隐藏关系同样有效。

建立模型
一条消息或者邮件拥有一个发送者和通常多于一个的接收者。

我们可以把发送者和接收者都视为“作者”,但是这并没有有效地区分发送者和接收者,以至于在实际问题的分析中不具有实用价值,例如一个管理者和他的职员可能会互发短信但是请求的性质和语言的运用却差别很大。

5.Nd单词个数
ART模型关注每条消息的发送者和每个接收者关于话题的多项分布,并以此捕捉话题和发送者和接收者组成的有向社会网络图。

ART模型是一个同时处理消息内容和有向社会网络图的贝叶斯网络,除了把信息内容以若干话题的组合的形式建模之外,还把明确了信息的发送者和接收者。

在创建过程当中,对于每一条消息d,它的发送者ad,以及一组接收者rd都被观测。

为了产生每一个单词,一个接收者x,从集合rd中统一选取,话题z从关于话题的多项分布θadx中选取,而这个分布是针对于发送-接收对的(ad,x)的。

最后,单词w从特定话题的多项分布中选取,结果有关话题的发现就是它被产生消息文本的集合的社会网络所决定。

ART模型具体建立(图1)
在ART模型当中,对每条消息d,已经给出了超参数α和β,发送者ad,以及一组接收者rd,每个发送-接受对(i,j)给出话题的集合θij的联合分布,每个话题t的单词集合φt,一组接收者x,一组话题z,和一组单词w通过以下方式给出:
我们可以通过吉布斯抽样对公式进行简化,我们对该多项分布采用共轭先验,于是我们可以积分得出θ和。

我们可以使用Gibbs EM算法估计ART模型的超参数α和β。

在一些实际应用当中,话题模型对超参数是非常敏感的,但在本文中讨论的应用,在实验了多次以后我们发现模型对超参数的敏感程度比较低。

因此,本文的实验采用固定的对称狄利克雷分布(α=50/T,β=0.1),所以以上的条件概率可以用以下公式近似:
在这里nijt是分配给话题t及发送-接受对(i,j)的单词个数,mtv是
分配给话题t的单词v的出现次数。

后验估计θ和φ可通过如下公式计算:
吉布斯抽样算法的伪代码如下:
Initialize the author and topic assignments randomly for all tokens
1. repeat
2. for d=1 to D do
3. for i=1 to Nd do
4. draw xdi and zdi from
5. Update and
6. end for
7. end for
8. until the markov chain reaches its equilibrium
9. compute the posterior estimate of θ and
尽管之前的论述可以有效的探测出与问题相关的话题以及频繁
涉及这些话题的发送-接收对,但是发送者和接收者哪个的相关度更大尚不清楚,鉴于此,本文的模型将进一步深化以探测消息发送者,接收者在所关注问题中的重要程度和可能角色。

根据社会网络分析中常用的中心性方法,本文引入三个参数描述网络中成员的地位并且给出计算公式。

表示节点在网络中的与关注问题的相关程度,值越高表明该成员在网络中的影响程度越高,也就更有可能成为网络中的核心成员,表示成员与其他成员的连接边上的关联度的加和。

表示节点在网络中对其他成员的中介影响程度,值越高,代表该成员越有可能扮演着桥梁的作用,为成员j与成员k之间的最短距离的个数。

表示节点在网络中与其他成员的接近程度,值越小就表明该成员越接近其他成员对其他成员直接影响越大。

根据前述的中间结果并聚类我们便可以得到我们所关心问题相
关度较大的成员及其可能的角色。

测试及结果
本文采用的测试数据集包含83个人物节点,400条短消息,21000词汇信息的公司员工内部短信数据,其中隐藏了一起白领犯罪,已知罪犯有Jean, Alex, Elsie, Paul, Ulf, Yao,和Harvey,我们需要分析预测出可能的犯罪成员及其起到的作用并与已知条件作对比。

借助表1的数据,我们可以很容易计算出这几个话题与犯罪的相关程度,数据见表2:
这里需要说明的是,与犯罪无关的话题权重置为0,而实验的结果是建立在数据的相对量比较上的,所以我们这里对各个话题与阴谋相关度参数的调整是一种归一化处理,该调整并不影响数据处理的结果。

另外,本文的测量方法得到的关系矩阵并不是对称的,这是由ART 模型本身的性质决定的,因为发送者与接收者的地位并不平等。

(图2)
在该ART模型对于可疑话题7,11,13的关系矩阵中,原点在矩阵左上角,横坐标x∈[1,83],从左向右递增,y∈[1,83],从上到下递增,矩阵中的每一个节点代表了两个人之间的信息(message),矩阵节点的颜色代表信息与犯罪的关联程度——颜色越鲜艳,两人之间的信息与犯罪的关系越密切,颜色越暗淡,信息与犯罪越无关,无色表示完全无关。

我们对人员按照与犯罪相关程度进行排序,(2),(3)两式的计算结果可以更好地预测可能的犯人在犯罪中所扮演的角色和作用——核心成员或者是传递信息的关键人物或者是普通成员等等,折线图如下:(图3)
聚类结果如图4,其中红色表示可能白领犯罪人员,蓝色表示普通职员。

(图4)
根据前述中间结果并聚类我们得到20个预测人选,和其他人相比他们与犯罪有着较大关联,并且可能在犯罪中有着如下不同的角色:(表3)
结语
通过测试我们发现预测结果包含了已知罪犯,并且发现他们可能有着不同的角色,并与已知条件对比,发现得到了较为理想的结果,验证了本文的方法的可行性和有效性。

本文基于ART模型的语义社会网络分析方法不仅可以应用于短信形式下的隐藏关系分析,在邮件等文本交流情况下同样有效,对信息方向的敏感使得不仅对相关程度分析预测的结果更准确也有助于不同成员的角色分析。

然而模型的局限性在于不能够有效发现关系网络中关系随时间而发生的动态变化,应用中时间变量因素对得出更准确的结论是不容忽视的。

参考文献
[1] 陈磊,董碧丹,赵燕平.基于语义社会网络分析的企业内隐藏关系探测.计算机与数字工程,2009年第九期.
[2] Andrew McCallum,Xue rui Wang, Andr′es Corrada-Emmanuel (2007), Topic and Role Discovery in Social Networks with Experiments on Enron and Academic Email, Journal of Arti′cial Intelligence Research 30 (2007) 249-272.
[3] Criminal Network Analysis and Visualization (2005),COMMUNICATIONS OF THE ACM June 2005/V ol.48,No.6.。

相关主题