当前位置:文档之家› 基于Java的“博客”论坛系统的设计与实现文献综述

基于Java的“博客”论坛系统的设计与实现文献综述

基于Java的“博客”论坛系统的设计与实现文献综述

文献综述

基于Java的“博客”论坛系统的设计与实现

一、前言部分

“博客”一词源自英文Blog,是其最常用的中文译名。Blog是Web log(网络日志)的简称,即以Web(网页)的方式显示和发布的日志,一个Blog就是一个网页。拥有或撰写这些Blog的人称为Blogger或Blog writer,中文称为博主。博客中每一篇日志或博主写的文章、记录就是一个Post(帖子),中文称之为博文。博文一般较简洁,而且经常更新,按照时间倒序排列,内容以超链接为表达方式。对每个博客而言,其链接地址不变,但其包含的内容不断被更新。

1. 新的传播方式。博客的传播方式是一种多对多的传播,与传统媒体一种一对多的传播方式相反。正因为如此,它被称为“新媒体”。《连线》杂志给“新媒体”下的定义很简单:由所有人面向所有人进行的传播(communications for

all,by all)。它使每个人不仅有听的机会,而且有说的条件。博客从不孤立出现,在浏览博客的时候,你很快会意识到它们构成了网络社区??尤其是那些关系紧密的社区??的基础交流平台[1]。社区内的人利用博客分享彼此的信息。网络一向带给人们无障碍沟通的承诺,但博客却真正将此承诺化作了现实[1]。

2. 开放性和共享性。技术上的突破,使博客具备开放性,进而使人们在信息世界中的角色也发生了巨大改变。成为博客一族不需要具备某一领域的专业能力,例如计算机编程能力、新闻搜集分析能力、美术设计能力等等,只要有兴趣就足够。并且从被动的信息接收者,变成信息的首发者、传播者。另一方面,博客的超级链接功能从而使博客这一新兴媒体完全面向所有人群。博客作为内容的开放源代码,向外的链接解放了文档,使文档的表现力实现质的飞跃[1]。正是从这个意义上说,博客比其他网络媒体有更好的优势去实现“个人孤岛”的连接[1]。

3. 个人化和丰富性。从内容上说,博客区别于其他媒体的另一特征是完全归属于个人,而不由社会组织、企业等团体所拥有。它从个人角度得到信息、表述信息、发布信息。现在人们的生活越来越丰富,不仅有文化讲座、音乐会等各方面的活动充实精神生活,提升文化修养、精神境界,更有日常生活中上下班路上的所见所闻、自身的经历、工作学习的状况、随感、周围的新鲜事、生活中的精彩瞬间和温馨时刻等等,都有让人忍不住想要与他人分享的喜悦、想要倾诉的烦恼。于是,博客的出现极大地满足了博主们记录生活点滴、思想感悟的需求。因为在内容的表现技术上,博客不仅支持文字、图片,还支持音频、视频等多媒体信息,使得其内容具有极大的丰富性。

4. 传播渠道多样化、信息即时性和交互性。博客的传播可以通过网络、特定客户端访问,也可以通过手机访问WAP网站或手机客户端。伴随这一多样性的是信息的即时性。信息发布者可以通过手机、电脑,迅速发布即时信息,而有关接收者也能在第一时间了解好友等相关发布者的情况、做出回应。虽然报纸、杂志、电视等传统信息传播媒体有其难以替代的独特之处,但是从信息的获得到发出再到收到反馈,必需经历一定的时间,因而相对滞后。而且传统媒体是通过职业人士获取信息、素材,而人人都可以成为博主,随时随地自主发布信息。

博客的这些特性是传统媒体难以超越的,是它的特色,但也存在一些争议。比如:虽然这种新的传输方式可以输是一种巨大的变革,但它带来的信息无法保证真实性、准确性,一旦众说纷纭,很容易就让人觉得无从选择,难以下手。没有限制的开放性,潜在可能的风险,例如不怀好意者随意发布他人隐私,而法律在网络监管方面出台有效办法需要一定时间,只能寄希望于博客技术上的改进。

二、主题部分

2.1历史背景

博客最古老的原形要算NCSA的“What’s New Page”网页,主要是罗列Web上新兴的网站索引[3]。1997年4月1日,Dave Winer 开始出版Scripting

News,这个网站是从早期的Davenet演变而来的,是一个介绍技术界的一些动态的站点。同年12 月,Jorn Barger运行“RobotWisdom Weblog”,第一次使用

Weblog 这个名字。1998年正式成为通过网页或网站链接进行个人化信息发布和思想表达的一种方式。它充分利用了网络双向互动、超文本链接、动态更新、覆盖范围广的特点,将使用者的工作过程、思路经历、思想精华、闪现的灵感等及时记录和发布,选取并联接全球互联网中最有价值、最相关、最有意思的信息与资源,它的出现标志着互联网从传统的信息共享开始渐渐跨过“思想共享”的门槛[4]。1999 年,PeterMerholz以缩略词“blog”来命名博客,成为今天最常用的术语。

世界第一次真正感受到Blog的力量始于1998年1月 17日,Matt Drudge通过其个人主页率先引爆克林顿性丑闻事件[5]。2001年震惊世界的“9.11”事件也直接推动了Blog的普及和发展。由于事发的突然性,大量主流媒体因访问量过大而瘫痪,而传统的电视媒体的报道内容被批评为不够深入和全面。此时,Blog网站史无前例地担起传递最新消息的重任,在事件发生的第一时间就提供了有价值的相关信息。其中最典型的是Dave Winers的Scripting New网站。整个9月11日早晨这里一直是获取第一手资料的最佳地点,甚至成为了传统站点和主流媒体的一些消息的来源。

而这些信息的源头都是目击者Blog。除了传播即时,目击者Blog的内容常常可以挖掘到记者遗漏的东西,还得益于其强大的传播力量,能对传统媒体的报道进行事实验证和重新过滤。传统媒体的记者有时会因为职业道德的缺失或个人疏忽,进行不实报道,普通的读者难以对这种报道进行验证和监督[6]。比如《纽约时报》的丑闻就是由Blog揭开的。

自9.11事件后,博客正式步入主流社会。2002年美国多数党领袖洛特下台、2003年的伊拉克战争等大事推动Blog真正走向世界。2002年被称为“互联网的博客之年”,各大媒体都注意到了Blog的迅猛发展。2004年,随着AOL、Google、Yahoo等全球几家最大的互联网公司开始全面提供Blog服务,随着欧洲、日本、韩国等国家最主要的ISP服务商也加入Blog服务阵营,Blog浪潮将越来越给主流媒体带来影响和冲击[1]。这是Blog完全进入主流的一年。Blog形成引发社会变革的重要力量。

2002 年8 月方兴东与王俊秀首次将Blog引入中国,随即便在中国网民中掀起了狂潮,以飞快的速度成长起来。2005年伊始,各大门户网站纷纷加入博客阵营,博客开始步入草根繁荣时代,2005年也往往被人们称作“中国博客元年”

[5]。

2.2现状和发展方向

博客在我国的迅速发展,已成为人们的一种生活方式和学习方式。据中国互联网络信息中心CNNIC发布了《2008-2009 博客市场及博客行为研究报告》 报告显示, 截至 2009 年 6 月底,拥有个人博客或个人空间的用户规模已经达到 1.81 亿人,博客空间的规模已经超过三亿[7]。有企业建立内部博客网,不但能随时了解员工工作情况、对工作的感想、创意,以利于公司的管理及发展,更能打造或强化公司文化。有学校依靠博客实现过程管理,了解学生的学习过程的情况、心理状况,帮助学生解决问题,摆脱了只依赖成绩的单一评价方式。鉴于博客的开放共享性,人们通过访问不同类型的博客和相关博客的超链接可以阅读一系列相关的所需内容进行学习。

我国博客的活跃程度稳中有升,在参与公共事件时表现的积极主动[7]。CNNIC 发布 《08-09 中国博客市场及博客行为研究报告》表明, 博客应用率在长期高速增长后趋于稳定, 半年用户增长率为 12%。博客活跃程度进一步提高,经常更新博客的用户比例为 62.7%,活跃博客作者规模达到 1.13 亿[7]。

人们认识到博客的作用与价值。CNNIC 发布 《08-09 中国博客市场及博客行为研究报告》指出,在听说过实名制的人群中,不反对实行有限实名制的使用者约占 65.0%,中立观望态度的被访者占到 21.7%,只有13.3%的被访者持反对态度,中国博客使用者总体对博客实名制表现出积极的态度。这充分说明大多数人已经意识到博客的言论自由是在一定道德和规则约束下的自由,这与当时实名制提出时的 “震惊” 形成了鲜明对比[7]。

1完善博客技术的研究趋势例举

目前的博客还存在一些不足和缺陷,专业人士正在提出、尝试新的各项技术来完善博客,为了使其具备更强的功能、更人性化。比如博客排序、文章分类、博客的倾向性检索、动态信息组织、垃圾信息过滤等,列举如下。

博客的内容千差万别, 对文章进行系统的、有效的分类具有重要的意义。文章[9]认为目前一些博客网站通过人工编辑或者用户选择的方式存在人的主观误差的缺点,并且随着博客数量的增长,工作量日趋加重。也有一些博客网站是采用自由分类法(Folksonomy),用TAG云(TAG Cloud)等较为自由的形式组织博客,这种方法实际上是利用Tag对文章进行聚类。Tag能够高度概括博客文章的内容,并且已经被证明对于博客分类起到积极作用[10]。但这种方法的缺点在于没有考虑Tag之间的关联性,单纯通过Tag聚类得到的类别数量非常庞大。在博客文章分类方面已经开展了一些相关的研究。Aix in Sun等对博客进行分类, 指出使用Tag有助于改进分类的结果。他们还考察了Tag的数量对分类结果的影响,并通过对Tag扩充进一步改善了分类效果[10]。Christopher H.Brooks等用Tag对博客文章进行聚类, 并指出使用从文章中提取关键词取代Tag可以得到更好的聚类效果[11]。文章认为前者的不足在于以博客而不是博客文章作为分类对象,

由于用户兴趣的多样性, 通常一个博客中会包含多个类别的文章, 因此这种方法的分类粒度不够细致。后者的缺点是聚类得到的类别数量太大并且结构混乱,

缺乏层次性和条理性。因此,解决博客文章分类的方法将朝着使用机器学习进行自动分类的方向发展。

在博客排序问题上,文献[12]有如下归纳:文献[13]首先根据博客之间的信息传播途径推导出潜在信息流图然后基于此图对博客的重要程度进行排序。文献[14]采用特征向量计算方法为每个博文计算其得分,由好的博主所提交的博文会得到较高的分数,从而肯定了博主以前的工作。BlogRank[15]是个基于加权博客图的 PageRank 修改版,其中连接的权值取决于连接的数目和连接源与目的之间相同标签的数目等因素。B2Rank[16]侧重于研究博主的行为并用其分析结果来进行博客排序。文献[17]认为一个博客重要与否取决于在相关话题讨论中其所占据的地位。文献[18]基于博客信息源之间的链接关系来分析博客的重要性。文献[19]定义一个框架来评估博客的可信性并且列出了影响其可信度性的因素。文献[20]对这些因素进行深入评估并验证了其评估有效性。

关于博客倾向性检索,国内外众多研究者依托博客这个巨大的倾向性知识库,开展对其相关的研究。自 2006 年以来 NIST 组织的国际文本评测比赛连续三年举办了博客倾向性检索 BlogOpinion Retr ieval 评测比赛[21]。该评测侧重于挖掘博客空间中博主对特定主题所体现的意见和情感。国内中科院计算所、中科院自动化所和复旦大学联合举办的第一届中倾向性分析评测 COAE2008中也设置了倾向性检索任务。与传统的检索不同,博客倾向性检索的目标是检索出与给定查询既要主题相关又要具有倾向性的博文单元 包含博文和评论两部分

[21]。它更侧重于挖掘博客空间中博主对特定查询所体现的意见和情感。倾向性检索是信息检索和倾向性分析技术的融合。

目前国内外博客倾向性检索的研究主要两大类。第一类,对每个博文单元直接建立模型度量其对特定查询的评论程度[22]。第二类,先度量博文单元与特定查询的主题相关性得到主题相关分数,然后在此基础上计算博文单元对博文的评论强弱得到倾向性分数,最后融合二者分数得到最终倾向性检索分数进行排序。这类算法取得比较好的结果[22]。

2博客大方向发展趋势

博客网站与专业传媒机构之间将形成一种互补竞争、相互渗透的关系。因为只有专业机构才能通过规范的、持续的信息采写、发布活动,满足整个社会的信息需求[23]。非专业人士参与网络传播,容易受到主观的影响或是缺乏专业全面的评价等,因而导致信息的复杂化。一旦对同一事件出现不同描述,则让人很难判断信息的准确性。因此,从无数传播者中凸现出具有权威性、可靠性的发布者,

相关主题