当前位置:文档之家› 融合C-Value和LDA的社会化标签研究热点识别与分析

融合C-Value和LDA的社会化标签研究热点识别与分析

2019年3月情报探索第3期(总257期)MAR.2019InformationResearch No.3(Serial No.257)融合C-Value和LDA的社会化标签研究热点识别与分析冯翠翠莫富传(华中师范大学信息管理学院湖北武汉430079)摘要:[目的/意义]旨在帮助研究人员更清晰地认识与界定国内社会化标签研究领域的热点和发展演化过程。

[方法/过程]综合基于C-value术语抽取的词频分析和融合Gibbs抽样方法的LDA概率模型的优势,对社会化标签领域的研究热点进行识别。

[结果/结论]个性化推荐、社会化标签系统、知识管理、网络信息资源检索、资源聚合、用户兴趣和情感倾向等是目前国内社会化标签研究的6大热点。

社会化标签领域研究热点的识别与分析,有助于研究者更好地把握未来的研究方向。

关键词:社会化标签;C-Value算法;LDA模型;热点主题;个性化推荐;资源聚合中图分类号:G250.7文献标志码:A Adoi:10.3969/j.issn.1005-8095.2019.03.006 Hotspots Identification and Analysis of Social Tags Based on C-value and LDAFeng Cuicui Mo Fuchuan(School of Information Management,Central China Normal University,Wuhan Hubei430079)Abstract:[Purpose/significance]The paper is to help researchersunderstand and define the hotspots and development process of the research field of social tags in China more clearly.[Method/process]The paper synthesizes the advantagesof C-value term extrac-tion-based word frequency analysis and the LDA probability model fused with Gibbs sampling method,to identify the research hotspots of social tags.[Result/conclusion]Personalized recommendation,social tagging system,knowledge management,network information resource retrieval,resource aggregation,user interest and emotion tendency are the six hotspots in the study of social tags in China.Ana-lyzing the research hotspots in social tags will be helpful for researchers to better grasp the future research direction.Keyword:social tags;C-value algorithm;LDA model;hotspots;personalized recommendation;resource aggregation0前言社会化标签是社会化标注的结果,是人们在社会化环境下为实现资源的共享和用户的交互而使用的、描述资源的关键词,其融入了人们的认知,是更高层次的元数据[1]。

在Web2.0环境下,由于社会化标签具有流行性、多面性、社会性、灵活性、个性化和动态性等特点,在产业界得到了广泛应用,出现了Delicious、Flickr、Youtube、LibraryThing、Last.fm、Con-notea、CiteUlike、Technorati等社会化标签系统。

社会化标签是用户对自己感兴趣的互联网资源进行标注的结果,且所有用户标注的标签都互为可见。

这种开放共享的模式,反映用户真实的理解和观点,为用户的兴趣识别与个性化推荐,为网络资源的聚合、检索与共享,提供了新的理念和模式[2]。

在学术界,这种模式激发了研究人员的研究热情,并有众多研究成果问世。

本文基于C-value术语抽取算法和LDA主题概率模型,对国内社会化标签领域的研究主题术语进行抽取,进而识别并分析研究热点,以期能够帮助研究人员更清晰地认识与界定国内社会化标签研究领域的热点与发展演化过程,更好地把握未来的研究方向。

1数据来源本文以国内社会化标签研究的文献为分析对象,因此选择CNKI作为数据来源。

为提高论文数据的主题针对性,本次检索在高级检索功能中以“社会标签”“社会化标签”“社会标注”“社会化标注”“用户标签”“评论标签”“大众分类”“情感标签”作为检索词进行检索,检索字段限定为“篇名”,选择精确匹配,不限定论文发表的时间范围。

检索33收稿日期:2018-11-16作者简介:冯翠翠(1994—),女,2017级硕士研究生,研究方向为个性化信息推荐;莫富传(1993—),男,2017级学硕士研究生,研究方向为文献计量与科学评价、信息资源管理。

2019年3月情报探索第3期(总257期)时间为2018年8月20日,共检索到370篇文献。

为提高数据的学术性,剔除了无关的论文、学术性不强的报纸,最后得到357篇的期刊论文和学位论文作为本文的分析对象。

2研究方法目前,词频统计法、共词聚类法、引文内容分析法、LAD 主题概率模型是学界讨论和运用比较多的文献主题与热点识别的方法。

本文认为,综合基于C -value 术语抽取的词频分析和融合Gibbs 抽样方法的LAD 概率模型的优势,将二者结合起来,运用到论文主题分析的研究热点识别过程中,更为可靠。

2.1C -value 术语抽取算法C -value 算法是一种语言学规则和统计学相结合的混合术语抽取方法,由英国曼彻斯特城市大学T.K.Frantzi 等人提出[3]。

C -value 方法组合了语言学知识和概率信息,形成了一个词组的术语度(ter-mhood )测量准则,C -value 值越大,候选术语是一个真术语的可能性就越大。

C -value 考虑了术语的长度因素,在非嵌套术语识别上改进了效果,因此与纯粹的共现频率方法相比,能够更精确地提取术语。

C -value 值的计算基于如下考虑:一般来说,如果一个词出现次数越多,那么它越可能是术语;一个词在更多的长词语中出现,则它是一个术语的可能性越大;同样词频下,一个长词比一个短词更可能是术语。

C -value 提出后经过几次变化,最后确定的计算公式[4]为:其中,a 是抽取的某个候选术语,|a |是候选术语a 的长度,f (a )表示候选术语a 在语料库中的词频,bi 表示抽取的包含a 的候选术语(即嵌套术语),c (a )表示嵌套术语的数量。

2.2LDA 主题概率模型LDA (Latent Dirichlet Allocation )模型是一种包含词、主题、文档3层结构的贝叶斯概率模型,该模型它假设每篇文档是多个主题的混合分布,而每个主题又是一组词的混合分布[5]。

1篇文章的构造过程,首先是以一定的概率选择某个主题,然后再在这个主题下以一定的概率选出某1个词,这样就生成了这篇文章的第1个词,不断重复这个过程,就生成了整片文章。

LDA 的使用是上述文档生成的逆过程,它将根据1篇得到的文章,去寻找出这篇文章的主题,以及这些主题对应的词。

LDA 模型可由图1所示的结构表示,M 表示文档集中的文档总数,α是Dirichlet 分布的参数,能够反映隐含主题的相对强弱,β则刻画了隐含主题在词语上的概率分布,θ表示文档集中某个隐含主题的权重z 表示目标文档分配在每个特征词上的N 维主题向量,w 是目标文档的词向量表示。

图1LDA 主题概率模型[6]LDA 主题概率模型是自然语言处理中主题挖掘的典型模型,是一种完全的产生式模型,可以很好地模拟文档的生成过程,所识别的主题能准确地表达词的语义层次关系[7],能更精确地把握主题识别过程,并对主题分析以及主题预测有很好的效果。

从LDA 应用情况来看,由于获取数字化科学文献全文存在一定的局限性,所以构建文本语料库的语料主要有关键词、摘要、关键词+摘要3种形式[8]。

其中关键词在传统的共词分析中使用得比较多,而摘要及关键词+摘要的形式在主题模型中使用得比较普遍。

本研究综合各文本库的优势,构建标题+关键词+摘要语料库,进行社会化标签研究术语抽取与主题识别。

2.3Gibbs 抽样算法Gibbs 是马尔可夫链蒙特卡尔理论(MarkovChain Monte Carlo ,MCMC )中用来获取一系列近似等于指定多维概率分布观察样本的算法,其目的是构造收敛于某目标概率分布的马尔科夫链,并从链中抽取被认为接近该概率分布值的样本[9]。

Gibbs抽样算法具有速度快、所需内存较小、易于实现等诸多特点,可以借助机器学习和文本挖掘的自动快速处理能力,提高主题识别效率。

LDA 模型聚合了Gibbs 抽样算法,因此运行LDA 模型过程中,利用Gibbs 抽样方法可获得潜在主题聚类在论文上的概率分布,以及论文关键词在潜在主题聚类上的概率分布,最终构建文档—主题二维矩阵和主题—关键432019年3月冯翠翠等:融合C-Value和LDA的社会化标签研究热点识别与分析第3期(总257期)词二维矩阵。

根据文档—主题二维矩阵,可获得文档的主题构成,并据此识别论文所论述或研究的主题内容;根据主题—关键词二维矩阵,可获得主题的关键词构成,并据此进行论文主题的聚类。

本文基于C-value术语抽取算法和LDA主题概率模型,进行在社会化标签研究主题术语的抽取研究热点的识别。

首先在获得社会化标签研究相关文献集的基础上,从论文的标题、摘要中抽取关键词,综合构建标题+关键词+摘要语料库,以避免主题术语抽取的主观性;然后基于词频分析和C-val-ue术语抽取算法,计算各候选术语的C-value值,选取C-value值大于其均值的候选主题术语作为社会化标签研究的最终主题术语,以客观地识别论文的研究主题,提高研究主题和热点识别的完整性和准确性。

最后基于融合Gibbs抽样方法的LAD概率模型,设置恰当的主题数和其他参数值,进行社会化标签研究热点主题的识别和聚类。

3热点主题识别基于上述基础理论和分析过程的描述,本文运用R语言Rwordseg和jiebaR程序包对原始语料库进行分词处理、计算词频和C-Value值,获得主题术语。

相关主题