国内外研究现状一、互联网发展趋势互联网网络核心技术产生于上世纪60年代末,而互联网大规模应用始自上世纪90年代中期,经过十多年的快速发展和普及,互联网已经成为技术发展的重要推动力、经济发展的重要引擎、社会运行与管理的重要基础设施和国际竞争的重要领域,深刻影响着世界政治、经济、文化和社会的发展。
对于互联网,在规模、技术、内容、安全和应用等方面呈现出新的发展趋势,更大的发展和影响在于未来【01】。
首先在规模上,互联网的网络规模已经覆盖几乎所有国家和地区,今后将进一步向陆地、海洋和太空延伸;其次,用户规模巨大,目前全球互联网用户总量已经达到17亿左右,据美国国家科学基金会(National Science Foundation)预测,2020年前全球互联网用户将增加到50亿,达到全球的总人口数67亿的75%;设备终端数目以百亿计,移动与便携设备将是未来的主流;互联网上的数据是海量的,其规模达到将达到EB甚至ZB级【01】。
其次在技术上,特别是在未来50年,将催生新一代的互联网技术【02】【03】;在数据传输与网络技术方面,新出现新的互联网络体系结构【03】,超高速有限和无线通信技术【05】,物联网技术等【04】;在数据处理方面,在现有网格计算【06】、云计算【06】的基础上,将诞生新一代的海量数据与分布式处理技术【07】;在信息处理方面,在现有搜索引擎的基础上,将产生语义[08]和智能搜索引擎【09】。
在内容上,除了内容的海量特征外,内容的呈现格式多种多样,有文本、语音、图像和视频等多种异于传统的非结构数据存在;在内容的表示上,目前主要是基于文字的原始信息表示,缺乏统一的信息表示模型,缺乏以知识模型为基础的语义表示。
在安全上,首先是用户行为无法有效全面监控;其次,内容的真实可信无法保障,有害垃圾信息缺乏有效监控和过滤,个人隐私信息无法进行有效保护。
在应用方面,目前互联网络有影响的应用主要体现在以下几方面,一是信息的发布与传播上,如网站、论坛、博客、微博、社区等;二是电子商务应用上,三是电子政务应用上,四是一些基于互联网络的专有应用。
此外,这些应用都将主要基于云计算技术得以实现。
总之,互联网已经成为了社会的基础设施,并已经形成了一个与现实社会对应的虚拟社会,二者的融合已是未来发展之趋势,互联网及其相关技术将是未来各国科技竞争的重要领域,互联网对人类社会的影响将超过已有的任何技术。
互联网研究不仅属于计算机科学研究领域,也将是人文社会学科,特别是社会学、法学等的重要研究领域,面向互联网的跨学科研究已经成为一种趋势。
二、基于互联网络的新媒体信息研究国内外现状互联网新媒体主要指基于传统互联网和移动互联网的各类信息发布与互动交流平台,包括新闻网站、论坛、即时通讯工具、博客、微博客、SNS社区等多种形式。
互联网跨媒体信息研究主要包括以下几大方面:1、信息的表示与表达现有的信息形式多种多样。
此外,互联网上的信息是基于字符的,缺乏语义。
也即是说现阶段的互联网信息计算机是无法理解其含义的,仅把其作为符号信息来处理。
这就使得互联网上数据量虽然很大,但要从中获取知识却是很困难的。
为此,人们提出了本体ontology[10]、语义web[11]等,国内还提出了知网[12]等技术和理论体系。
本体是能在语义和知识层次上描述领域概念的建模工具,语义Web在本体概念的基础上,对现有web的扩展,以使web上的信息具有能被计算机理解的语义,从而实现Web资源的智能访问和检索。
但目前,还无法有效在互联网上实施本体和语义Web,更无法开展相应的智能检索研究。
如何在互联网上实施语义,并把问题、音频、视屏等多种信息资源进行有效统一的描述和表达,还面临巨大的挑战。
2、话题检测与跟踪话题检测与跟踪是一项旨在依据事件对语言文本信息流进行组织、利用的研究,也是为应对信息过载问题而提出的一项应用研究。
TDT[13][14]的概念最早产生于1996年,当时美国国防高级研究计划署(DARPA)根据自己的需求,提出要开发一种新技术,能在没有人工干预的情况下自动判断新闻数据流的主题。
自此,开始了话题检测与跟踪的持续研究。
TDT是一项综合的技术,需要比较多的自然语言处理理论和技术作为支撑,根据不同的应用需求,TDT评测会议把话题检测和跟踪分成五个子任务。
对话题进行判断和跟踪,需要解决话题的模型表达。
常用的模型主要有语言模型(Language Model,LM)[15]和向量空间模型(Vector Space Model,VSM)[15]。
采用的技术主要是自然语言处理NLP技术和概率统计技术。
此外,话题检测和跟踪除了需要自然语言理论和技术外,目前还面临多语言融合挑战,因为互联网上的一个话题问题可能会跨越不同的地区、国家,会以多种语言形式存在,如中日钓鱼岛问题,涉及中文、日文、韩文和英语等;其次,还面临信息真伪的挑战,在有的话题中,不同的人出于各自不同的目的,会夸大甚至发布虚假意见和信息;最后就是信息的海量处理和实时性。
话题跟踪与检测需要不同学科的人进行交叉融合研究。
网络及媒体舆情监控[16]是话题检测和跟踪的一个主要应用之一。
狭义的舆情指在一定社会空间内,围绕中介性社会事项发生、发展和变化,作为主体的民众对作为客体的国家管理者产生和持有的社会政治态度。
广义的舆情指由于各种事件刺激而产生的通过某一载体传播的人们对于该事件的所有认知、态度、情感和行为倾向的集合,现有的舆情监控。
现有的舆情分析应用面还较窄,主要集中在政府对社会突发事件、安全威胁事件的检测和监控等方面,还应在社情民意、企业情报分析等方面得到应用。
此外,目前的舆情监测研究大多建立在技术分析之上,而忽视了网络舆情研究的行为科学及其相关的人文理论。
3、信息获取与检索信息检索(Information Retrieval)[17],通常指文本信息检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索。
互联网上的信息获取与检索主要是依赖搜索引擎,搜索引擎使用网络信息资源自动采集机器人(robot)程序(也称网络蜘蛛、爬虫软件),动态访问各站点,收集信息,建立索引,并自动生成有关资源的简单描述,存入数据库中供检索。
最为成功的搜搜引擎基于pagerank[18]算法的是Google搜索引擎。
现在的搜索引擎功能越来越强大,提供的服务也越来越全面据. 然而随着互联网信息的急剧增加,目前的搜索引擎存在界面不够友好、响应时间长、死链接过多、结果中重复信息及不相关信息过多等问题,现阶段还无法进行语义和智能化检索,难以满足人们的各种信息需求,搜索引擎将向智能化、个性化、精确化、专业化、交叉语言检索、多媒体检索等适应不同用户需求的方向发展。
智能化的信息搜索引擎是未来搜索引擎的发展方向,被称作是"第三代搜索引擎"。
其智能化体现在两方面:一是对搜索请求的理解,二是对网页内容的分析。
它利用智能代理技术对用户的查询计划、意图、兴趣方向进行推理,自动进行信息搜集过滤,自动地将用户感兴趣的、对用户有用的信息提交给用户。
这其中也包含了对服务多项化、个性化,结果精确化,交叉语言检索等方面的功能。
但目前还只有一些原型系统。
如何实现语义和智能检索是当前研究的一个热点。
如何满足基于自然语言理解的检索,现有的检索主要基于关键词及其关键词表达式,对基于自然语言的表达的理解还有很大距离。
例如:“世界上最高的山峰是那座?”,基于自然语言理解的检索系统会给出“珠穆朗玛峰”的答案,而不是其他一大堆网页。
还设有就是多媒体搜索引擎。
互联网络上的网络资源丰富多彩,有网页、新闻、图片、音乐,以及软件、FTP、Flash、论文等等。
不仅仅限于文本,如何把这些资源有机统一起来,以便实现语音、视频等形式的搜索,即多媒体搜索[19][24],将是未来研究的重点和热点此外,为了专门收录某一行业、某一学科、某一主题和某一地区的信息而建立的专业搜索引擎也是将来的重要方向之一。
4、信息的真实性与质量互联网上的信息由于信息源的多样与不确定性,使得信息的真实和可信无法有效保证,存在大量劣质信息。
这表现在以下几个方面:(1)垃圾信息和有害信息过滤在互联网上,存在大量垃圾信息和有害信息,为此人们提出了主要基于关键词策略的各种垃圾信息和有害信息的过滤策略和方法,以及基于网站分级分类的访问控制方法。
但是垃圾信息是对接收人而言无什么价值的信息,但垃圾信息与接收人有一定关系,即同样的信息,对不通的人而言,其价值是不一样的,因而其垃圾程度也是不一样的。
如何确定信息对特定个人和人群的价值,是垃圾信息过滤的关键,现有的垃圾信息过滤方法还不能有效解决上述问题。
其次,有害信息和垃圾信息一样,现有的有害信息处理办法无法判断信息对特定个人、特定人群的有害程度,因而不能有效解决其过滤和屏蔽问题。
(2)信息的真实与可信性信息的不完整、不一致、虚假、错误、过时等原因,使得信息的真实与可行性无法保证,也即信息的质量无法保证,信息真实可信是信息能被传播和使用的必备前提。
对于各类信息,如何判定其是否真实,是否可信,即对信息的质量进行判定,是现在互联网信息管理面临的最大挑战。
对信息质量[20]、信息可用性[21][22]的相关研究目前已成为信息管理的重要研究领域和热点研究问题。
5、信息的海量处理互联网络上的信息量不在是以GB计算,而是以TB、PB甚至EB来计算,一个中等规模的组织如一个大学,其信息量也会随着时间的推移,而积聚海量信息。
由于信息量过大,如何对其存储、管理、计算,是互联网面临的很大挑战。
网格计算、云计算和大数据等技术就是在上述背景下提出来的,其核心就是解决规模过大所带来的挑战[23],这种规模过大表现以下几方面:(1)用户规模大,系统的用户过数千万,达上亿级。
系统如何能够满足数千万用户使用,甚至同时使用。
(2)数据资源量大,互联网上的资源以PB、EB规模来计。
如何存储、组织、管理这些数据资源,并对之进行处理,云存储、大数据研究应运而生。
(3)计算资源大,互联网络连接了成千上网的服务器、PC和各种计算设备,积聚了庞大的计算资源,为充分利用这些资源,产生了元计算、网格研究、云计算等技术解决方案。
(4)应用规模大,现有的很多应用系统,如Facebook、淘宝、QQ以及铁路购票系统,都是大规模的互联网应用系统。
这些系统在用户、数据资源和计算资源等方面,全部和部分体出现出海量特征。
什么样的架构能够满足这些系统的需要,什么样的技术能够整合与集成这些系统,也是网格计算、云计算和服务计算的研究难点。
此外,在规模化的应用中,更需要发展人工智能技术,以提高机器处理能力、效率和减少人机交互。
不同的应用和需求,需要不同的云计算和大数据管理方法,满足不用应用和需求的云计算、大数据管理的理论和技术成为当前和未来的IT研究重点和热点。