当前位置:文档之家› 国外Folksonomy语义丰富研究综述

国外Folksonomy语义丰富研究综述

国外Folksonomy语义丰富研究综述魏来2012-12-25 10:12:42 来源:《情报资料工作》2010年03期【英文标题】Review of the Research of Semantic Enrichment of Folksonomy Abroad(Academy of Computer Sciences and Information technology Northeast Normal University, Changchun, 130117)(National Science Library, Chinese Academy of Science, Beijing, 100080)【作者简介】魏来,女,1976年生,东北师范大学传媒科学学院讲师,中国科学院国家科学图书馆博士研究生。

东北师范大学计算机科学与信息技术学院长春130117中国科学院国家科学图书馆北京100080【内容提要】文章对国外folksonomy语义丰富的理论与实证研究进行了全面的梳理,从folksonomy的聚类、推荐、关联和实证四个方面探讨folksonomy 语义丰富的方法和途径,优化网络信息资源组织。

The paper comprehensive researches the theory and practice of folksonomy semantic enrichment, including folksonomy clustering, suggesting, relating and practicing.【关键词】folksonomy/语义丰富/语义folksonomyfolksonomy/semanticenrichment/semantic folksonomyFolksonomy由Thomas Vander Wal于2004年首次提出[1],是Web2.0社会性软件工具应用的典型代表。

目前,已经在各种社会性网站上广泛应用,如社会性书签服务[2],flickrt[3],社会性编目网站标注服务librarything[4],BibSonomy[5]等。

Folksonomy作为一种自底向上的公众分类方法,能够作为集体智慧的体现,提供流行的、反映用户兴趣的标签,具有简单、丰富、流行和多样的特点。

但随着标签数量的增加,folksonomy的进一步应用出现了一些制约因素,如标签的歧义,平面延展的标签结构,标签之间的语义关系等,这些问题会制约标签进一步使用。

解决这些问题的主要方法是为folksonomy提供一定的语义关系,即folksonomy语义丰富。

WellerK于2007年指出folksonomy能够从现有的知识组织系统中获得标签控制和语义关系的构建原则,同时提供有用的语义丰富知识组织系统,改进现有的分类法、叙词表或本体[6]。

国外研究人员对该领域的研究较为活跃,本文从folksonomy语义丰富的几个核心问题——聚类、推荐、关联及实证出发,探寻国外folksonomy语义丰富的主要方法和途径。

1 Folksonomy的标签聚类研究相同或相似标签能够通过一定的聚类方法聚集在一起,形成基于用户兴趣的标签集合。

根据标签聚类目的,标签聚类方法可分为相同标签聚类和相似标签聚类两种。

1.1 相同标签的聚类方法相同标签聚类方法的目的是将意义相同或描述主题相同的标签聚类(如“folksonomy”和“folksonomies”),主要有三种方法。

(1)词根还原方法(Stemming algorithms)。

词根还原方法是从单词中抽取词根聚类相同词根标签的方法。

如“links”和“linked”经过词根还原算法都聚类在“link”标签下。

Hend S等人在文献[7]中使用了词根还原算法标准化处理标签,将相同词根的标签聚集在一起。

(2)字符串距离测度方法(String distance metrics)。

字符串距离测度方法是测度标签字符串之间区别的方法。

最常用的是Levenshtein算法,即计算两个字符串之间的编辑距离,这个“距离”是从源字符串变换到目标字符串需要进行的删除、插入和替换的最少次数。

L.Specia和E.Motta在文献[8]中使用了Levenshtein算法,从形态学上聚合词形与语义相同的标签。

(3)在线资源探测方法(Exploiting on line resources)。

使用在线资源如Word Net,google等进行标签控制,如标签的拼写,单复数和词形规范等,同时找出相同标签集合中有代表性的标签。

L.Specia和E.Motta在文献[8]、Van Damme C.等人在文献[9]中建议使用在线资源检验标签的方法聚类相同标签。

1.2 相似标签的聚类方法1.2.1 标签的相似性测度方法标签相似性测度是进一步处理标签数据的基础,通过标签的相似性计算能够聚类相似标签进而推断标签之间的语义关联。

Cattuto、Markines等人在文献[10-13]中提出了不同的folksonomy标签相似性测度的方法。

(1)基于folksonomy三元组结构的相似性测度。

Mika在文献[12]中中将folksonomy作为来自社区的语义结构,建议通过揭示标签之间的语义关系构建folksonomy本体,利用folksonomy的三元组结构{用户,标签,资源}通过资源的共现来建立标签之间的关系,通过计算标签共现的次数计算标签之间的相似性。

(2)Jaccard index相似性测度。

Beglman等人在文献[13]中使用Jaccard index相似性测度方法,采用标准化的共现方法测度标签的相似性。

具体的算法为:其中,A是使用标签a标注的文档集,B是使用标签b标注的文档集。

(3)分布式聚类和余弦相似性测度。

Markines在文献[11]中提出了基于三个不同向量空间背景的测度方法,其中Tag-TagContext为每一个标签向量同其他标签向量共现;Tag-Resource Context为标签t标注资源的频次;Tag-User Context为用户u使用标签t的频次,使用余弦相似性算法计算标签相似性。

(4)folksonomy内部相似性测度评价框架和互信息测度(MutualInformation Measure)。

互信息是信息论中的一种信息度量,指两个事件集合之间的相关性。

Markines等人在文献[11]中提出了基于互信息测度的相似性测度方法,并提出不同测度类型的评价框架,包括标签之间的测度及被标注资源的测度方法。

1.2.2 相似标签的聚类方法(1)谱平分聚类方法(Spectral Bisection Clustering)。

基于Laplace特征值的谱平分聚类方法根据Laplace图谱的次小特征值和第三小特征值对应的特征向量,构成聚类样本并显示出来。

Begelman等人在文献[13]中发现标签同时出现的频率会在一个临界点变化显著,可以根据这个临界点确定两个标签之间是否相关,使用谱平分聚类算法对标签进行了聚类分析,从Raw-Suar网站抽取30000个标签进行试验。

(2)文档向量空间聚类方法(Vector Space Model)。

文档向量空间聚类方法是计算文本之间距离或相关度的方法。

HeymannP在文献[14]中,使用向量空间聚类方法。

从网站搜集60000个标签,根据标签的向量相似度确定相关标签,将相关标签连接成无权重的无向图,采用相关算法将无向图转换为层次结构的分类树。

Daniel Ramage、YusefHassan-Montero和VíctorHerrero-Solana等人在文献[15-16]中,使用kmeans聚类方法扩展向量空间模型。

Miranda Grahl等人在文献[17]中,使用k-means聚类算法和folkrank排序算法构建了数据的三个等级概念结构。

(3)共现聚类方法(Co-occurrence Clustering)。

Cattuto等人在文献[18]中指出标签共现可以用语义描述,标签的相似性被认为是标签之间的一种语义关系,可通过标签之间的相对共现进行评价,能够揭示协作标注系统中的语义关系,如标签之间的同形异义、同义和等级关系等。

P.Schmitz在文献[19]中使用基于包容算法的模型,抽取标签的共现关系,聚类标签并发现相关标签。

Begelman 等人在文献[13]中将标签作为一个无向图,将标签共现频次作为向量,并赋予标签共现的值,来完善标签聚类的结果。

X.Wu等人在文献[20]中基于标签、资源和用户的共现,生成语义关联的标签组。

从目前国外研究进展来看,以上几种标签聚类方法都被普遍的采用,并通过具体的数据来检验聚类的效果。

其中,共现聚类方法应用最多,同时共现聚类方法能够同其他的方法结合使用,以优化聚类的结果,发现与识别标签之间的语义关系。

2 Folksonomy标签推荐方法研究标签推荐能够为用户提供与关键词匹配良好的资源,标签推荐方法的目标是通过有效的解决标签缺少等级结构问题来处理标签服务中出现的各种问题[21],对标签推荐方法的研究包括定量分析和推荐算法两个方面。

2.1 定量分析E.H.Chi和T.Mytkowicz在文献[22]中评价了早期delicious数据有效导航的价值,指出标签随着时间增加,top标签不能支持随时间变化的有效导航。

R.Li 等人在文献[23]中探索了标签共现网络,提出ELSABer标注空间浏览方法,即基于相似性和语义等级发现标签子集的方法,实现语义浏览、层次浏览和有效浏览。

E.Santos-Neto等人在文献[24]中研究了Citelike和Bibsonomy服务,探索促进导航的模式。

2.2 推荐算法(1)K-way算法。

在文献[13]中使用k-way方法代替spectral clustering,该方法实现了更好的聚类质量,并且比spectral clustering方法易于使用,效果更好。

(2)向量空间算法与TP-IDF算法。

文献[25]中扩展了推荐资源内容的选择,分析了标签描述博客内容的有效性,通过构建标签向量空间,有效的分类博客内容。

(3)基于相似性的folkrank算法。

Hotho等人在文献[26]中提出了folkrank 算法,用于排序和关联folksonomy元素。

其指导思想是被重要用户使用重要标签标注的资源也是重要的,folkrank算法的目的是计算一个给定标签的相关标签的排序列表。

(4)基于启发式规则和深度句法分析的等级分类体系。

Eric Tsui等人在文献[27]中提出了基于启发式规则和深度句法分析的方法,处理核心的分类数据集,生成等级的结构促进用户信息导航行为并体现个性化特征,获取的标签能够整合到分类体系中,以自动的方法完成分类等级构建的过程。

相关主题